Zonos TTS Voice Cloning
Führen Sie Zonos TTS von Zyphra für Voice-Cloning mit Emotion- und Tonhöhensteuerung auf Clore.ai GPUs aus.
Zonos von Zyphra ist ein Open-Weight-Text-zu-Sprache-Modell mit 0,4 Mrd. Parametern, trainiert auf über 200.000 Stunden mehrsprachiger Sprache. Es führt Zero-Shot-Stimmenklonen bereits mit nur 2–30 Sekunden Referenzaudio durch und bietet feinkörnige Kontrolle über Emotion, Sprechgeschwindigkeit, Tonhöhenvariation und Audioqualität. Die Ausgabe ist hochauflösendes 44-kHz-Audio. Zwei Modellvarianten sind verfügbar: Transformer (beste Qualität) und Hybrid/Mamba (schnellere Inferenz).
GitHub: Zyphra/Zonos HuggingFace: Zyphra/Zonos-v0.1-transformer Lizenz: Apache 2.0
Hauptmerkmale
Stimmenklonen aus 2–30 Sekunden — kein Fine-Tuning erforderlich
44 kHz Hochleistungs-Ausgabe — Studioqualität-Audio
Emotionssteuerung — Freude, Traurigkeit, Wut, Angst, Überraschung, Ekel via 8D-Vektor
Sprechgeschwindigkeit & Tonhöhe — unabhängige feinkörnige Kontrolle
Audio-Präfix-Eingaben — ermöglicht Flüstern und andere schwer zu klonende Verhaltensweisen
Mehrsprachig — Englisch, Japanisch, Chinesisch, Französisch, Deutsch
Zwei Architekturen — Transformer (Qualität) und Hybrid/Mamba (Geschwindigkeit, ~2× Echtzeit auf RTX 4090)
Apache 2.0 — kostenlos für private und kommerzielle Nutzung
Anforderungen
GPU
RTX 3080 10 GB
RTX 4090 24 GB
VRAM
6 GB (Transformer)
10 GB+
RAM
16 GB
32 GB
Festplatte
10 GB
20 GB
Python
3.10+
3.11
CUDA
11.8+
12.4
System
espeak-ng
—
Clore.ai-Empfehlung: RTX 3090 ($0,30–1,00/Tag) für angenehme Reserven. RTX 4090 ($0,50–2,00/Tag) für das Hybrid-Modell und schnellste Inferenz.
Installation
Schnellstart
Beispielanwendungen
Emotionssteuerung
Zonos akzeptiert einen 8-dimensionalen Emotionsvektor: [Freude, Traurigkeit, Ekel, Angst, Überraschung, Wut, anderes, neutral].
Sprechgeschwindigkeit- und Tonhöhensteuerung
Gradio Web-Oberfläche
Port freigeben 7860/http in Ihrer Clore.ai-Bestellung und öffnen Sie die http_pub URL, um auf die UI zuzugreifen.
Tipps für Clore.ai-Nutzer
Modellwahl — Transformer für beste Qualität, Hybrid für ~2× schnellere Inferenz (erfordert RTX-3000+-GPU)
Referenzaudio — 10–30 Sekunden sauberen Sprechens liefern die besten Ergebnisse; kürzere Clips (2–5 s) funktionieren, aber mit geringerer Qualität
Docker-Einrichtung — verwenden Sie
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, fügen Sieapt-get install -y espeak-ngzum Startup hinzuPort-Weiterleitung — freigeben
7860/httpfür Gradio-UI,8000/httpfür API-ServerSeed-Kontrolle — setze
torch.manual_seed()vor der Generierung für reproduzierbare AusgabeAudioqualitätsparameter — experimentieren Sie mit dem
audio_qualityKonditionierungsfeld für sauberere Ausgabe
Fehlerbehebung
espeak-ng nicht gefunden
Ausführen apt-get install -y espeak-ng (erforderlich für Phonemisierung)
CUDA out of memory
Verwenden Sie das Transformer-Modell (kleiner als Hybrid); reduzieren Sie die Textlänge pro Aufruf
Hybrid-Modell schlägt fehl
Erfordert Ampere+-GPU (RTX-3000-Serie oder neuer) und pip install -e ".[compile]"
Geklonte Stimme klingt falsch
Verwenden Sie einen längeren Referenzclip (15–30 s) mit deutlicher Sprache und minimalem Hintergrundgeräusch
Langsame Generierung
Normal für Transformer (~0,5× Echtzeit); Hybrid erreicht ~2× Echtzeit auf RTX 4090
ModuleNotFoundError: zonos
Stellen Sie sicher, dass Sie von der Quelle installiert haben: cd Zonos && pip install -e .
Zuletzt aktualisiert
War das hilfreich?