Kokoro TTS
Kokoro TTS ausführen — ein ultraleichtes 82M‑Parameter Text‑zu‑Sprache‑Modell auf Clore.ai‑GPUs.
Kokoro ist ein 82M-Parameter Text-zu-Sprache-Modell, das weit über seine Gewichtsklasse hinaus performt. Trotz seiner winzigen Größe (unter 2 GB VRAM) erzeugt es bemerkenswert natürlich klingende englische Sprache und läuft in Echtzeit oder schneller sogar auf günstiger Hardware. Mit Apache-2.0-Lizenz, mehreren integrierten Stimmenstilen und CPU-Inferenzunterstützung ist Kokoro ideal für Echtzeit-Anwendungen, Chatbots und Edge-Deployments.
HuggingFace: hexgrad/Kokoro-82M PyPI: kokoro Lizenz: Apache 2.0
Hauptmerkmale
82M Parameter — eines der kleinsten qualitativ hochwertigen TTS-Modelle, die verfügbar sind
< 2 GB VRAM — läuft auf praktisch jeder GPU und sogar auf der CPU
Mehrere Stimmenstile — amerikanisches Englisch, britisches Englisch; männliche und weibliche Stimmen
Echtzeit oder schneller — latenzarme Inferenz, geeignet für Streaming
Streaming-Generierung — liefert Audiobrocken, sobald sie erzeugt werden
Mehrsprachige Unterstützung — Englisch (primär), Japanisch (
misaki[ja]), Chinesisch (misaki[zh])Apache 2.0 — kostenlos für private und kommerzielle Nutzung
Anforderungen
GPU
Jede mit 2 GB VRAM
RTX 3060
VRAM
2 GB
4 GB
RAM
4 GB
8 GB
Festplatte
500 MB
1 GB
Python
3.9+
3.11
System
espeak-ng installiert
—
Clore.ai-Empfehlung: Eine RTX 3060 (~0,15–0,30 $/Tag) ist mehr als ausreichend. Kokoro kann sogar auf reinen CPU-Instanzen laufen und bietet so extrem kostengünstiges TTS.
Installation
Schnellstart
Beispielanwendungen
Vergleich mehrerer Stimmen
Erzeuge denselben Text mit unterschiedlichen Stimmen zum Vergleich:
Britisches Englisch mit Geschwindigkeitskontrolle
Batch-Dateiverarbeitung
Verarbeite mehrere Texte und füge sie zu einer einzelnen Hörbuch-ähnlichen Datei zusammen:
Tipps für Clore.ai-Nutzer
CPU-Inferenz — Kokoro ist klein genug, um auf der CPU zu laufen; nützlich für kostenempfindliche Workloads oder wenn GPUs nicht verfügbar sind
Streaming — der Generator liefert Audiobrocken, sobald sie erzeugt werden, was Echtzeitwiedergabe in Web-Apps ermöglicht
Mit WhisperX kombinieren — verwende WhisperX zur Transkription und Kokoro zur Re-Synthese in Sprachpipelines
Docker — verwenden Sie
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtimeund füge hinzuapt-get install -y espeak-ngzu deinem StartupStimmkonsistenz — bleibe bei einer Voice-ID pro Projekt für ein konsistentes Erzähler-Erlebnis
Kosteneffizienz — bei 0,15 $/Tag auf einer RTX 3060 ist Kokoro eine der günstigsten TTS-Lösungen zum Selbsthosten
Fehlerbehebung
espeak-ng nicht gefunden
Ausführen apt-get install -y espeak-ng (erforderliche Systemabhängigkeit)
ModuleNotFoundError: kokoro
Installiere mit pip install kokoro>=0.9.4 soundfile
Audio klingt robotisch
Probiere eine andere Stimme (z. B., af_heart neigt dazu, am natürlichsten zu klingen)
Japanisch/Chinesisch funktioniert nicht
Installiere Sprach-Extras: pip install misaki[ja] oder misaki[zh]
Zu wenig Speicher auf der CPU
Reduziere die Textlänge pro Aufruf; Kokoro streamt Brocken, sodass der Speicher begrenzt bleibt
Langsamer erster Lauf
Modellgewichte werden beim ersten Gebrauch heruntergeladen (~200 MB); nachfolgende Läufe sind sofort verfügbar
Zuletzt aktualisiert
War das hilfreich?