Chatterbox Voice Cloning

Führen Sie Chatterbox TTS von Resemble AI für Zero-Shot-Voice-Cloning und mehrsprachige Sprachsynthese auf Clore.ai GPUs aus.

Chatterbox ist eine Familie hochmoderner Open-Source-Text-to-Speech-Modelle von Resemble AIarrow-up-right. Es führt Zero-Shot-Stimmenklonung anhand eines kurzen Referenzclips (~10 Sekunden) durch, unterstützt paralinguistische Tags wie [laugh] und [cough], und bietet eine mehrsprachige Variante, die 23+ Sprachen abdeckt. Drei Modellvarianten sind verfügbar: Turbo (350M, geringe Latenz), Original (500M, kreative Steuerung) und Multilingual (500M, 23+ Sprachen).

GitHub: resemble-ai/chatterboxarrow-up-right PyPI: chatterbox-ttsarrow-up-right Lizenz: MIT

Hauptmerkmale

  • Zero-Shot-Stimmenklonung — klont jede Stimme aus ~10 Sekunden Referenzaudio

  • Paralinguistische Tags (Turbo) — [laugh], [cough], [chuckle], [sigh] für realistische Sprache

  • 23+ Sprachen (Multilingual) — Arabisch, Chinesisch, Französisch, Deutsch, Japanisch, Koreanisch, Russisch, Spanisch und mehr

  • CFG- & Übertreibungs-Tuning (Original) — kreative Kontrolle über Expressivität

  • Drei Modellgrößen — Turbo (350M), Original (500M), Multilingual (500M)

  • MIT-Lizenz — vollständig offen für kommerzielle Nutzung

Anforderungen

Komponente
Minimum
Empfohlen

GPU

RTX 3060 12 GB

RTX 3090 / RTX 4090

VRAM

6 GB

10 GB+

RAM

8 GB

16 GB

Festplatte

5 GB

15 GB

Python

3.10+

3.11

CUDA

11.8+

12.1+

Clore.ai-Empfehlung: RTX 3090 ($0.30–1.00/Tag) für komfortablen VRAM-Spielraum. Eine RTX 3060 funktioniert für das Turbo-Modell. Für das Multilingual-Modell mit langen Texten sollte man eine RTX 4090 in Betracht ziehen ($0.50–2.00/Tag).

Installation

Schnellstart

Turbo-Modell (geringste Latenz)

Original-Modell (Englisch, kreative Steuerung)

Beispielanwendungen

Mehrsprachige Stimmenklonung

Paralinguistische Tags (Turbo)

Batch-Verarbeitungsskript

Tipps für Clore.ai-Nutzer

  • Modellwahl — verwende Turbo für latenzarme Sprachagenten, Original für kreative englische Arbeit, Multilingual für nicht-englische Inhalte

  • Referenzaudioqualität — verwende einen sauberen, rauschfreien Clip von 10–30 Sekunden für beste Stimmenklonungsergebnisse

  • Docker-Einrichtung — Basis-Image pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, Port freigeben 7860/http für Gradio

  • Speichermanagement — rufen Sie torch.cuda.empty_cache() zwischen großen Batches, um VRAM freizugeben

  • Unterstützte Sprachen — ar, da, de, el, en, es, fi, fr, he, hi, it, ja, ko, ms, nl, no, pl, pt, ru, sv, sw, tr, zh

  • HuggingFace Space — vorher testen, bevor man mietet bei huggingface.co/spaces/ResembleAI/Chatterboxarrow-up-right

Fehlerbehebung

Problem
Lösung

CUDA out of memory

Verwende Turbo (350M) statt Original/Multilingual (500M) oder miete eine größere GPU

Geklonte Stimme stimmt nicht überein

Verwende einen längeren (15–30s), saubereren Referenzclip mit minimalem Hintergrundrauschen

numpy Versionskonflikt

Ausführen pip install numpy==1.26.4 --force-reinstall

Langsamer Modelldownload

Modelle werden beim ersten Lauf von HuggingFace geladen (~2 GB); vorab herunterladen mit huggingface-cli

Audio hat Artefakte

Reduziere die Textlänge pro Generierung; sehr lange Texte können die Qualität verschlechtern

ModuleNotFoundError

Stelle sicher, dass pip install chatterbox-tts ohne Fehler abgeschlossen; überprüfe die Kompatibilität mit Python 3.11

Zuletzt aktualisiert

War das hilfreich?