Kani-TTS-2 Stimmklonen
Kani-TTS-2 ausführen — ein hocheffizientes 400M-Parameter Text-to-Speech-Modell mit Stimmklon-Funktion auf Clore.ai GPUs
Kani-TTS-2 von nineninesix.ai (veröffentlicht am 15. Februar 2026) ist ein Open-Source-Text-zu-Sprache-Modell mit 400 Millionen Parametern, das hochauflösende Sprachsynthese erreicht und dabei nur 3 GB VRAM. Basierend auf LiquidAI's LFM2-Architektur mit NVIDIA NanoCodec behandelt es Audio wie eine Sprache — es erzeugt natürlich klingende Sprache mit Zero-Shot-Stimmenklonung aus einem kurzen Referenz-Audioclip. Bei weniger als der Hälfte der Größe konkurrierender Modelle und einem Bruchteil des Rechenaufwands ist Kani-TTS-2 ideal für Echtzeit-Konversations-KI, Hörbucherzeugung und Stimmenklonung auf sparsamer Hardware.
HuggingFace: nineninesix/kani-tts-2-en GitHub: nineninesix-ai/kani-tts-2 PyPI: kani-tts-2 Lizenz: Apache 2.0
Hauptmerkmale
400M Parameter, 3GB VRAM — läuft praktisch auf jeder modernen GPU, einschließlich RTX 3060
Zero-Shot-Stimmenklonung — klont jede Stimme aus einer 3–30 Sekunden langen Referenz-Audioprobe
Sprecher-Embeddings — WavLM-basierte 128-dimensionale Sprecherrepräsentationen für präzise Stimmsteuerung
Bis zu 40 Sekunden kontinuierliches Audio — geeignet für längere Passagen und Dialoge
Echtzeit oder schneller — RTF ~0.2 auf RTX 5080, in Echtzeit sogar auf günstigen GPUs
Apache 2.0 — vollständig offen für persönliche und kommerzielle Nutzung
Pretraining-Framework enthalten — trainiere dein eigenes TTS-Modell von Grund auf für jede Sprache
Vergleich mit anderen TTS-Modellen
Kani-TTS-2
400M
3GB
✅ Zero-Shot
Englisch (erweiterbar)
Apache 2.0
Kokoro
82M
2GB
❌ Voreingestellte Stimmen
EN, JP, CN
Apache 2.0
Zonos
400M
8GB
✅
Multi
Apache 2.0
ChatTTS
300M
4GB
❌ Zufällige Seeds
Chinesisch, Englisch
AGPL 3.0
Chatterbox
500M
6GB
✅
Englisch
Apache 2.0
XTTS (Coqui)
467M
6GB
✅
Multi
MPL 2.0
F5-TTS
335M
4GB
✅
Multi
CC-BY-NC 4.0
Anforderungen
GPU
Jede mit 3GB VRAM
RTX 3060 oder besser
VRAM
3GB
6GB
RAM
8GB
16GB
Festplatte
2GB
5GB
Python
3.9+
3.11+
CUDA
11.8+
12.0+
Clore.ai-Empfehlung: Eine RTX 3060 ($0.15–0.30/Tag) ist mehr als ausreichend. Selbst die günstigsten GPU-Instanzen auf Clore.ai laufen Kani-TTS-2 problemlos. Für Batch-Verarbeitung (Hörbücher, Datensätze) bietet eine RTX 4090 ($0.5–2/Tag) ausgezeichneten Durchsatz.
Installation
Schnellstart
Drei Zeilen, um Sprache zu erzeugen:
Beispielanwendungen
1. Grundlegendes Text-zu-Sprache
2. Stimmenklonung
Klone jede Stimme aus einer kurzen Referenz-Audioprobe:
3. Batch-Erzeugung für Hörbücher
Mehrere Kapitel effizient erzeugen:
4. OpenAI-kompatible Streaming-API
Für Echtzeitanwendungen verwende den OpenAI-kompatiblen Server:
Verwende ihn dann mit jedem OpenAI-TTS-Client:
Tipps für Clore.ai-Nutzer
Dies ist das günstigste Modell zum Betreiben — Mit 3GB VRAM läuft Kani-TTS-2 buchstäblich auf jeder GPU-Instanz bei Clore.ai. Eine RTX 3060 für $0.15/Tag ist mehr als ausreichend für Produktions-TTS.
Mit einem Sprachmodell kombinieren — Miete eine GPU-Instanz und betreibe sowohl ein kleines LLM (z. B. Mistral 3 8B) als auch Kani-TTS-2 gleichzeitig für einen vollständigen Sprachassistenten. Sie teilen sich die GPU mit Spielraum.
Sprecher-Embeddings vorab berechnen — Extrahiere Sprecher-Embeddings einmal und speichere sie. So muss das WavLM-Embedder-Modell nicht bei jeder Anfrage geladen werden.
Verwende den OpenAI-kompatiblen Server — Der
kani-tts-2-openai-serverbietet einen Drop-in-Ersatz für OpenAIs TTS-API und erleichtert die Integration in bestehende Anwendungen.Auf benutzerdefinierte Sprachen trainieren — Kani-TTS-2 enthält ein vollständiges Pretraining-Framework (kani-tts-2-pretrain). Feintune das Modell auf deinem eigenen Sprachdatensatz — es benötigt nur 8× H100s für ~6 Stunden.
Fehlerbehebung
ImportError: kann LFM2 nicht importieren
Installiere die korrekte Transformers-Version: pip install -U "transformers==4.56.0"
Audioqualität ist schlecht / robotisch
Erhöhen Sie temperature auf 0.8–0.9; stelle sicher, dass Referenzaudio für das Klonen sauber ist (kein Hintergrundgeräusch)
Die Stimmenklonung klingt nicht wie die Referenz
Verwende 5–15 Sekunden klares, einsprachiges Audio. Vermeide Musik oder Hintergrundgeräusche in der Referenz
CUDA out of memory
Sollte beim 3GB-Modell nicht passieren — prüfe, ob andere Prozesse GPU-Speicher nutzen (nvidia-smi)
Audio bricht mitten im Satz ab
Kani-TTS-2 unterstützt bis zu ~40 Sekunden. Teile längere Texte in Sätze auf und füge die Ausgaben zusammen
Langsam auf der CPU
GPU-Inferenz wird dringend empfohlen. Selbst eine einfache GPU ist 10–50× schneller als die CPU
Weiterführende Lektüre
GitHub — kani-tts-2 — PyPI-Paket, Nutzungsdokumentation, erweiterte Beispiele
HuggingFace — kani-tts-2-en — Englische Modellgewichte
Pretraining-Framework — Trainiere dein eigenes TTS-Modell von Grund auf
OpenAI-kompatibler Server — Drop-in-Ersatz für OpenAI TTS-API
Sprecher-Embedding-Modell — WavLM-basiertes Voice-Embedder
MarkTechPost-Übersicht — Community-Berichterstattung
Zuletzt aktualisiert
War das hilfreich?