Voxtral TTS

Mistrals Open-Weight-Text-to-Speech-Modell: 4 Mrd. Parameter, 9 Sprachen, Zero-Shot-Voice-Cloning, nur 3 GB VRAM.

Spezifikation

Wert

Entwickler

Mistral AI

Parameter

4 Milliarden

Architektur

Nur-Decoder-TTS

Sprachen

9 (Englisch, Französisch, Deutsch, Spanisch, Hindi, Arabisch, Portugiesisch, Italienisch, Japanisch)

Lizenz

Apache 2.0 (Open Weights)

VRAM

~3 GB (FP16)

Latenz

70 ms für 10 Sekunden Ausgabe

Stimmenklonen

Zero-Shot anhand einer 3-Sekunden-Referenz

Veröffentlichung

26. März 2026

Warum Voxtral TTS?

Voxtral TTS ist Mistrals Antwort mit offenen Gewichten auf ElevenLabs und OpenAI TTS. Wichtige Vorteile für Clore.ai-Nutzer:

Läuft auf jeder GPU — nur 3 GB VRAM bedeuten, dass sogar eine RTX 3060 perfekt funktioniert
Keine API-Gebühren — selbst gehostet = unbegrenzte Synthese ohne variable Kosten
Datenschutz — Audio verlässt niemals Ihr Gerät
Zero-Shot-Klonen — klont jede Stimme aus 3 Sekunden Referenz-Audio
9 Sprachen nativ — einschließlich Hindi und Arabisch, die bei Wettbewerbern oft fehlen
Echtzeit-Geschwindigkeit — RTF 0,1–0,2× auf RTX 4070+ (10-Sekunden-Clip in 1–2 Sekunden)

GPU-Anforderungen auf Clore.ai

GPU

VRAM

Leistung

Clore.ai-Preis

RTX 3060 12GB

12 GB

✅ Gut — 3–4× Echtzeit

ab 0,10 $/Tag

RTX 3090 24GB

24 GB

✅ Sehr gut — Batch-Verarbeitung

ab 0,30 $/Tag

RTX 4070 12GB

12 GB

✅ Hervorragend — 5–10× Echtzeit

ab 0,25 $/Tag

RTX 4090 24GB

24 GB

✅ Überdimensioniert — Latenz unter einer Sekunde

ab 0,50 $/Tag

Empfehlung: Eine RTX 3060 12GB (0,10 $/Tag auf Clore.ai) ist für die meisten Anwendungsfälle der ideale Kompromiss. Voxtral benötigt nur 3 GB VRAM, sodass Sie es parallel zu anderen Modellen ausführen können.

Schnellstart auf Clore.ai

Schritt 1: GPU-Server mieten

Gehen Sie zu Clore.ai Marketplace
Filtern Sie nach jeder GPU mit 8+ GB VRAM
Wählen Sie eine Docker Bereitstellung
Verwenden Sie das Image: pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel

Schritt 2: Abhängigkeiten installieren

# Per SSH oder Jupyter-Terminal verbinden
pip install torch torchaudio transformers accelerate

# Voxtral-TTS-Paket installieren
pip install voxtral-tts

# Oder direkt HuggingFace verwenden
pip install huggingface_hub
huggingface-cli download mistralai/Voxtral-TTS --local-dir ./voxtral-tts

Schritt 3: Einfache Text-zu-Sprache

from voxtral import VoxtralTTS

# Modell initialisieren (Gewichte werden automatisch heruntergeladen, ~6 GB)
model = VoxtralTTS.from_pretrained("mistralai/Voxtral-TTS")
model.to("cuda")

# Einfache Synthese
audio = model.synthesize(
    text="Willkommen bei Clore.ai — dem dezentralen GPU-Marktplatz.",
    language="en"
)
audio.save("output.wav")
print(f"{audio.duration:.1f}s Audio erzeugt")

Schritt 4: Zero-Shot-Voice-Cloning

# Klont eine Stimme anhand einer 3-Sekunden-Referenz
audio = model.synthesize(
    text="Dies ist meine geklonte Stimme, die über GPU-Computing spricht.",
    reference_audio="reference_speaker.wav",  # 3+ Sekunden
    language="en"
)
audio.save("cloned_output.wav")

Schritt 5: Mehrsprachige Synthese

# Synthese in 9 unterstützten Sprachen
languages = {
    "en": "Hallo, hier spricht Voxtral auf Englisch.",
    "fr": "Bonjour, c'est Voxtral, das auf Französisch spricht.",
    "de": "Hallo, hier spricht Voxtral auf Deutsch.",
    "es": "Hola, Voxtral spricht auf Spanisch.",
    "hi": "नमस्ते, यह Voxtral हिंदी में बोल रहा है।",
    "ar": "مرحبا، هذا Voxtral يتحدث بالعربية.",
    "pt": "Olá, aqui é o Voxtral falando em português.",
    "it": "Ciao, qui parla Voxtral in italiano.",
    "ja": "こんにちは、Voxtralが日本語で話しています。",
}

for lang, text in languages.items():
    audio = model.synthesize(text=text, language=lang)
    audio.save(f"voxtral_{lang}.wav")
    print(f"[{lang}] {audio.duration:.1f}s erzeugt")

Produktions-API-Server

Stellen Sie Voxtral als REST-API bereit, um es in Ihre Anwendungen zu integrieren:

# server.py — FastAPI-Wrapper für Voxtral TTS
from fastapi import FastAPI, UploadFile, File
from fastapi.responses import StreamingResponse
from voxtral import VoxtralTTS
import io
import soundfile as sf

app = FastAPI(title="Voxtral TTS API")
model = VoxtralTTS.from_pretrained("mistralai/Voxtral-TTS").to("cuda")

@app.post("/synthesize")
async def synthesize(
    text: str,
    language: str = "en",
    reference: UploadFile = File(None)
):
    kwargs = {"text": text, "language": language}
    if reference:
        ref_bytes = await reference.read()
        kwargs["reference_audio"] = ref_bytes
    
    audio = model.synthesize(**kwargs)
    
    # Als WAV-Stream zurückgeben
    buffer = io.BytesIO()
    sf.write(buffer, audio.numpy(), samplerate=24000, format="WAV")
    buffer.seek(0)
    
    return StreamingResponse(buffer, media_type="audio/wav")

@app.get("/health")
async def health():
    return {"status": "ok", "model": "voxtral-tts", "languages": 9}

# API-Server starten
pip install fastapi uvicorn python-multipart soundfile
uvicorn server:app --host 0.0.0.0 --port 8000

# Testen
curl -X POST "http://localhost:8000/synthesize?text=Hallo%20Welt&language=en" \
  --output hello.wav

Docker-Bereitstellung

FROM pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel

WORKDIR /app
RUN pip install voxtral-tts fastapi uvicorn python-multipart soundfile

# Modellgewichte vorab herunterladen
RUN python -c "from voxtral import VoxtralTTS; VoxtralTTS.from_pretrained('mistralai/Voxtral-TTS')"

COPY server.py .
EXPOSE 8000
CMD ["uvicorn", "server:app", "--host", "0.0.0.0", "--port", "8000"]

# Bauen und ausführen
docker build -t voxtral-tts-api .
docker run --gpus all -p 8000:8000 voxtral-tts-api

Voxtral vs. andere TTS-Modelle

Merkmal

Voxtral TTS

ElevenLabs

Qwen3-TTS

Kokoro TTS

Fish Speech

Open Weights

✅ Apache 2.0

❌ Nur API

✅

VRAM

3 GB

n. z. (Cloud)

8 GB

2 GB

4 GB

Sprachen

30+

50+

Stimmenklonen

3s-Referenz

1s-Referenz

5s-Referenz

❌

10s-Referenz

Latenz

70 ms

~200 ms

~150 ms

50 ms

100 ms

Qualität

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

Selbst gehostet

✅

❌

✅

Batch-Verarbeitung für große Projekte

import concurrent.futures
from voxtral import VoxtralTTS

model = VoxtralTTS.from_pretrained("mistralai/Voxtral-TTS").to("cuda")

# Ein ganzes Hörbuchkapitel verarbeiten
paragraphs = [
    "Kapitel 1: Der Anfang...",
    "Es war eine dunkle und stürmische Nacht...",
    "Der Protagonist trat vor...",
    # ... Hunderte von Absätzen
]

def process_paragraph(idx_text):
    idx, text = idx_text
    audio = model.synthesize(text=text, language="en")
    audio.save(f"chapter1_part{idx:04d}.wav")
    return idx

# Sequenzielle Verarbeitung (GPU-gebunden)
for i, text in enumerate(paragraphs):
    process_paragraph((i, text))
    
print(f"{len(paragraphs)} Absätze verarbeitet")

Streaming-Modus für Echtzeitanwendungen

# Streaming-Synthese für Live-Anwendungen
async def stream_synthesis(text: str, language: str = "en"):
    """Audio in Streaming-Blöcken für die Wiedergabe mit geringer Latenz erzeugen."""
    model = VoxtralTTS.from_pretrained("mistralai/Voxtral-TTS").to("cuda")
    
    async for chunk in model.synthesize_stream(
        text=text,
        language=language,
        chunk_size=4096  # ~170 ms pro Chunk bei 24 kHz
    ):
        yield chunk.numpy().tobytes()

Fehlerbehebung

Problem

Lösung

OOM auf kleiner GPU

Verwenden Sie model.half() für FP16 (halbiert die VRAM-Nutzung auf ~1,5 GB)

Langsame erste Inferenz

Normal — das Modell kompiliert beim ersten Lauf CUDA-Kerne (~30 s)

Schlechte Qualität für Sprache X

Stellen Sie sicher, dass der richtige Sprach Parameter verwendet wird; einige Sprachen benötigen längeres Referenz-Audio

Audio-Artefakte

Erhöhen Sie die reference_audio Dauer auf 5–10 s für besseres Stimmenklonen

Modell-Download schlägt fehl

Setzen Sie die HF_TOKEN Umgebungsvariable für den Zugriff auf gesperrte Modelle

Kostenanalyse: Voxtral auf Clore.ai vs. Cloud-TTS

Dienst

1 Mio. Zeichen/Monat

Hinweise

ElevenLabs Pro

99 $/Monat

500K Zeichen enthalten, Gebühren für Mehrverbrauch

OpenAI TTS

15 $/Monat

15 $ pro 1 Mio. Zeichen

Google Cloud TTS

16 $/Monat

Standardstimmen

Voxtral auf Clore.ai

3–15 $/Monat

RTX 3060 bei 0,10–0,50 $/Tag, unbegrenzt viele Zeichen

Fazit: Voxtral selbst auf Clore.ai zu hosten ist 6–30× günstiger als Cloud-TTS-APIs, mit keinen Zeichenlimits und vollständigem Datenschutz.

Weiterlesen

Zuletzt aktualisiert: 30. März 2026

VorherigeMeloTTS NächsteÜberblick

Zuletzt aktualisiert vor 50 Minuten

War das hilfreich?

hashtagWarum Voxtral TTS?

hashtagGPU-Anforderungen auf Clore.ai

hashtagSchnellstart auf Clore.ai

hashtagSchritt 1: GPU-Server mieten

hashtagSchritt 2: Abhängigkeiten installieren

hashtagSchritt 3: Einfache Text-zu-Sprache

hashtagSchritt 4: Zero-Shot-Voice-Cloning

hashtagSchritt 5: Mehrsprachige Synthese

hashtagProduktions-API-Server

hashtagDocker-Bereitstellung

hashtagVoxtral vs. andere TTS-Modelle

hashtagBatch-Verarbeitung für große Projekte

hashtagStreaming-Modus für Echtzeitanwendungen

hashtagFehlerbehebung

hashtagKostenanalyse: Voxtral auf Clore.ai vs. Cloud-TTS

hashtagWeiterlesen