Kokoro TTS

Kokoro TTS ausführen — ein ultraleichtes 82M‑Parameter Text‑zu‑Sprache‑Modell auf Clore.ai‑GPUs.

Kokoro ist ein 82M-Parameter Text-zu-Sprache-Modell, das weit über seine Gewichtsklasse hinaus performt. Trotz seiner winzigen Größe (unter 2 GB VRAM) erzeugt es bemerkenswert natürlich klingende englische Sprache und läuft in Echtzeit oder schneller sogar auf günstiger Hardware. Mit Apache-2.0-Lizenz, mehreren integrierten Stimmenstilen und CPU-Inferenzunterstützung ist Kokoro ideal für Echtzeit-Anwendungen, Chatbots und Edge-Deployments.

HuggingFace: hexgrad/Kokoro-82Marrow-up-right PyPI: kokoroarrow-up-right Lizenz: Apache 2.0

Hauptmerkmale

  • 82M Parameter — eines der kleinsten qualitativ hochwertigen TTS-Modelle, die verfügbar sind

  • < 2 GB VRAM — läuft auf praktisch jeder GPU und sogar auf der CPU

  • Mehrere Stimmenstile — amerikanisches Englisch, britisches Englisch; männliche und weibliche Stimmen

  • Echtzeit oder schneller — latenzarme Inferenz, geeignet für Streaming

  • Streaming-Generierung — liefert Audiobrocken, sobald sie erzeugt werden

  • Mehrsprachige Unterstützung — Englisch (primär), Japanisch (misaki[ja]), Chinesisch (misaki[zh])

  • Apache 2.0 — kostenlos für private und kommerzielle Nutzung

Anforderungen

Komponente
Minimum
Empfohlen

GPU

Jede mit 2 GB VRAM

RTX 3060

VRAM

2 GB

4 GB

RAM

4 GB

8 GB

Festplatte

500 MB

1 GB

Python

3.9+

3.11

System

espeak-ng installiert

Clore.ai-Empfehlung: Eine RTX 3060 (~0,15–0,30 $/Tag) ist mehr als ausreichend. Kokoro kann sogar auf reinen CPU-Instanzen laufen und bietet so extrem kostengünstiges TTS.

Installation

Schnellstart

Beispielanwendungen

Vergleich mehrerer Stimmen

Erzeuge denselben Text mit unterschiedlichen Stimmen zum Vergleich:

Britisches Englisch mit Geschwindigkeitskontrolle

Batch-Dateiverarbeitung

Verarbeite mehrere Texte und füge sie zu einer einzelnen Hörbuch-ähnlichen Datei zusammen:

Tipps für Clore.ai-Nutzer

  • CPU-Inferenz — Kokoro ist klein genug, um auf der CPU zu laufen; nützlich für kostenempfindliche Workloads oder wenn GPUs nicht verfügbar sind

  • Streaming — der Generator liefert Audiobrocken, sobald sie erzeugt werden, was Echtzeitwiedergabe in Web-Apps ermöglicht

  • Mit WhisperX kombinieren — verwende WhisperX zur Transkription und Kokoro zur Re-Synthese in Sprachpipelines

  • Docker — verwenden Sie pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime und füge hinzu apt-get install -y espeak-ng zu deinem Startup

  • Stimmkonsistenz — bleibe bei einer Voice-ID pro Projekt für ein konsistentes Erzähler-Erlebnis

  • Kosteneffizienz — bei 0,15 $/Tag auf einer RTX 3060 ist Kokoro eine der günstigsten TTS-Lösungen zum Selbsthosten

Fehlerbehebung

Problem
Lösung

espeak-ng nicht gefunden

Ausführen apt-get install -y espeak-ng (erforderliche Systemabhängigkeit)

ModuleNotFoundError: kokoro

Installiere mit pip install kokoro>=0.9.4 soundfile

Audio klingt robotisch

Probiere eine andere Stimme (z. B., af_heart neigt dazu, am natürlichsten zu klingen)

Japanisch/Chinesisch funktioniert nicht

Installiere Sprach-Extras: pip install misaki[ja] oder misaki[zh]

Zu wenig Speicher auf der CPU

Reduziere die Textlänge pro Aufruf; Kokoro streamt Brocken, sodass der Speicher begrenzt bleibt

Langsamer erster Lauf

Modellgewichte werden beim ersten Gebrauch heruntergeladen (~200 MB); nachfolgende Läufe sind sofort verfügbar

Zuletzt aktualisiert

War das hilfreich?