Voxtral TTS

Mistrals Open-Weight-Text-to-Speech-Modell: 4 Mrd. Parameter, 9 Sprachen, Zero-Shot-Voice-Cloning, nur 3 GB VRAM.

Spezifikation
Wert

Entwickler

Mistral AI

Parameter

4 Milliarden

Architektur

Nur-Decoder-TTS

Sprachen

9 (Englisch, Französisch, Deutsch, Spanisch, Hindi, Arabisch, Portugiesisch, Italienisch, Japanisch)

Lizenz

Apache 2.0 (Open Weights)

VRAM

~3 GB (FP16)

Latenz

70 ms für 10 Sekunden Ausgabe

Stimmenklonen

Zero-Shot anhand einer 3-Sekunden-Referenz

Veröffentlichung

26. März 2026

Warum Voxtral TTS?

Voxtral TTS ist Mistrals Antwort mit offenen Gewichten auf ElevenLabs und OpenAI TTS. Wichtige Vorteile für Clore.ai-Nutzer:

  • Läuft auf jeder GPU — nur 3 GB VRAM bedeuten, dass sogar eine RTX 3060 perfekt funktioniert

  • Keine API-Gebühren — selbst gehostet = unbegrenzte Synthese ohne variable Kosten

  • Datenschutz — Audio verlässt niemals Ihr Gerät

  • Zero-Shot-Klonen — klont jede Stimme aus 3 Sekunden Referenz-Audio

  • 9 Sprachen nativ — einschließlich Hindi und Arabisch, die bei Wettbewerbern oft fehlen

  • Echtzeit-Geschwindigkeit — RTF 0,1–0,2× auf RTX 4070+ (10-Sekunden-Clip in 1–2 Sekunden)

GPU-Anforderungen auf Clore.ai

GPU
VRAM
Leistung
Clore.ai-Preis

RTX 3060 12GB

12 GB

✅ Gut — 3–4× Echtzeit

ab 0,10 $/Tag

RTX 3090 24GB

24 GB

✅ Sehr gut — Batch-Verarbeitung

ab 0,30 $/Tag

RTX 4070 12GB

12 GB

✅ Hervorragend — 5–10× Echtzeit

ab 0,25 $/Tag

RTX 4090 24GB

24 GB

✅ Überdimensioniert — Latenz unter einer Sekunde

ab 0,50 $/Tag

Empfehlung: Eine RTX 3060 12GB (0,10 $/Tag auf Clore.ai) ist für die meisten Anwendungsfälle der ideale Kompromiss. Voxtral benötigt nur 3 GB VRAM, sodass Sie es parallel zu anderen Modellen ausführen können.

Schnellstart auf Clore.ai

Schritt 1: GPU-Server mieten

  1. Filtern Sie nach jeder GPU mit 8+ GB VRAM

  2. Wählen Sie eine Docker Bereitstellung

  3. Verwenden Sie das Image: pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel

Schritt 2: Abhängigkeiten installieren

Schritt 3: Einfache Text-zu-Sprache

Schritt 4: Zero-Shot-Voice-Cloning

Schritt 5: Mehrsprachige Synthese

Produktions-API-Server

Stellen Sie Voxtral als REST-API bereit, um es in Ihre Anwendungen zu integrieren:

Docker-Bereitstellung

Voxtral vs. andere TTS-Modelle

Merkmal
Voxtral TTS
ElevenLabs
Qwen3-TTS
Kokoro TTS
Fish Speech

Open Weights

✅ Apache 2.0

❌ Nur API

VRAM

3 GB

n. z. (Cloud)

8 GB

2 GB

4 GB

Sprachen

9

30+

50+

5

8

Stimmenklonen

3s-Referenz

1s-Referenz

5s-Referenz

10s-Referenz

Latenz

70 ms

~200 ms

~150 ms

50 ms

100 ms

Qualität

⭐⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

Selbst gehostet

Batch-Verarbeitung für große Projekte

Streaming-Modus für Echtzeitanwendungen

Fehlerbehebung

Problem
Lösung

OOM auf kleiner GPU

Verwenden Sie model.half() für FP16 (halbiert die VRAM-Nutzung auf ~1,5 GB)

Langsame erste Inferenz

Normal — das Modell kompiliert beim ersten Lauf CUDA-Kerne (~30 s)

Schlechte Qualität für Sprache X

Stellen Sie sicher, dass der richtige Sprach Parameter verwendet wird; einige Sprachen benötigen längeres Referenz-Audio

Audio-Artefakte

Erhöhen Sie die reference_audio Dauer auf 5–10 s für besseres Stimmenklonen

Modell-Download schlägt fehl

Setzen Sie die HF_TOKEN Umgebungsvariable für den Zugriff auf gesperrte Modelle

Kostenanalyse: Voxtral auf Clore.ai vs. Cloud-TTS

Dienst
1 Mio. Zeichen/Monat
Hinweise

ElevenLabs Pro

99 $/Monat

500K Zeichen enthalten, Gebühren für Mehrverbrauch

OpenAI TTS

15 $/Monat

15 $ pro 1 Mio. Zeichen

Google Cloud TTS

16 $/Monat

Standardstimmen

Voxtral auf Clore.ai

3–15 $/Monat

RTX 3060 bei 0,10–0,50 $/Tag, unbegrenzt viele Zeichen

Fazit: Voxtral selbst auf Clore.ai zu hosten ist 6–30× günstiger als Cloud-TTS-APIs, mit keinen Zeichenlimits und vollständigem Datenschutz.

Weiterlesen


Zuletzt aktualisiert: 30. März 2026

Zuletzt aktualisiert

War das hilfreich?