Zonos TTS Voice Cloning

Führen Sie Zonos TTS von Zyphra für Voice-Cloning mit Emotion- und Tonhöhensteuerung auf Clore.ai GPUs aus.

Zonos von Zyphraarrow-up-right ist ein Open-Weight-Text-zu-Sprache-Modell mit 0,4 Mrd. Parametern, trainiert auf über 200.000 Stunden mehrsprachiger Sprache. Es führt Zero-Shot-Stimmenklonen bereits mit nur 2–30 Sekunden Referenzaudio durch und bietet feinkörnige Kontrolle über Emotion, Sprechgeschwindigkeit, Tonhöhenvariation und Audioqualität. Die Ausgabe ist hochauflösendes 44-kHz-Audio. Zwei Modellvarianten sind verfügbar: Transformer (beste Qualität) und Hybrid/Mamba (schnellere Inferenz).

GitHub: Zyphra/Zonosarrow-up-right HuggingFace: Zyphra/Zonos-v0.1-transformerarrow-up-right Lizenz: Apache 2.0

Hauptmerkmale

  • Stimmenklonen aus 2–30 Sekunden — kein Fine-Tuning erforderlich

  • 44 kHz Hochleistungs-Ausgabe — Studioqualität-Audio

  • Emotionssteuerung — Freude, Traurigkeit, Wut, Angst, Überraschung, Ekel via 8D-Vektor

  • Sprechgeschwindigkeit & Tonhöhe — unabhängige feinkörnige Kontrolle

  • Audio-Präfix-Eingaben — ermöglicht Flüstern und andere schwer zu klonende Verhaltensweisen

  • Mehrsprachig — Englisch, Japanisch, Chinesisch, Französisch, Deutsch

  • Zwei Architekturen — Transformer (Qualität) und Hybrid/Mamba (Geschwindigkeit, ~2× Echtzeit auf RTX 4090)

  • Apache 2.0 — kostenlos für private und kommerzielle Nutzung

Anforderungen

Komponente
Minimum
Empfohlen

GPU

RTX 3080 10 GB

RTX 4090 24 GB

VRAM

6 GB (Transformer)

10 GB+

RAM

16 GB

32 GB

Festplatte

10 GB

20 GB

Python

3.10+

3.11

CUDA

11.8+

12.4

System

espeak-ng

Clore.ai-Empfehlung: RTX 3090 ($0,30–1,00/Tag) für angenehme Reserven. RTX 4090 ($0,50–2,00/Tag) für das Hybrid-Modell und schnellste Inferenz.

Installation

Schnellstart

Beispielanwendungen

Emotionssteuerung

Zonos akzeptiert einen 8-dimensionalen Emotionsvektor: [Freude, Traurigkeit, Ekel, Angst, Überraschung, Wut, anderes, neutral].

Sprechgeschwindigkeit- und Tonhöhensteuerung

Gradio Web-Oberfläche

Port freigeben 7860/http in Ihrer Clore.ai-Bestellung und öffnen Sie die http_pub URL, um auf die UI zuzugreifen.

Tipps für Clore.ai-Nutzer

  • Modellwahl — Transformer für beste Qualität, Hybrid für ~2× schnellere Inferenz (erfordert RTX-3000+-GPU)

  • Referenzaudio — 10–30 Sekunden sauberen Sprechens liefern die besten Ergebnisse; kürzere Clips (2–5 s) funktionieren, aber mit geringerer Qualität

  • Docker-Einrichtung — verwenden Sie pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, fügen Sie apt-get install -y espeak-ng zum Startup hinzu

  • Port-Weiterleitung — freigeben 7860/http für Gradio-UI, 8000/http für API-Server

  • Seed-Kontrolle — setze torch.manual_seed() vor der Generierung für reproduzierbare Ausgabe

  • Audioqualitätsparameter — experimentieren Sie mit dem audio_quality Konditionierungsfeld für sauberere Ausgabe

Fehlerbehebung

Problem
Lösung

espeak-ng nicht gefunden

Ausführen apt-get install -y espeak-ng (erforderlich für Phonemisierung)

CUDA out of memory

Verwenden Sie das Transformer-Modell (kleiner als Hybrid); reduzieren Sie die Textlänge pro Aufruf

Hybrid-Modell schlägt fehl

Erfordert Ampere+-GPU (RTX-3000-Serie oder neuer) und pip install -e ".[compile]"

Geklonte Stimme klingt falsch

Verwenden Sie einen längeren Referenzclip (15–30 s) mit deutlicher Sprache und minimalem Hintergrundgeräusch

Langsame Generierung

Normal für Transformer (~0,5× Echtzeit); Hybrid erreicht ~2× Echtzeit auf RTX 4090

ModuleNotFoundError: zonos

Stellen Sie sicher, dass Sie von der Quelle installiert haben: cd Zonos && pip install -e .

Zuletzt aktualisiert

War das hilfreich?