ChatTTS Konversationelle Sprache
Führen Sie ChatTTS konversationelles Text-to-Speech mit fein abgestimmter Prosodie-Steuerung auf Clore.ai GPUs aus.
ChatTTS ist ein generatives Sprachmodell mit 300 Millionen Parametern, optimiert für Dialogszenarien wie LLM-Assistenten, Chatbots und interaktive Sprachanwendungen. Es erzeugt natürlich klingende Sprache mit realistischen Pausen, Lachen, Füllwörtern und Intonation – Eigenschaften, die die meisten TTS-Systeme nur schwer nachbilden. Das Modell unterstützt Englisch und Chinesisch und generiert Audio mit 24 kHz.
GitHub: 2noise/ChatTTS (30K+ Sterne) Lizenz: AGPLv3+ (Code), CC BY-NC 4.0 (Modellgewichte – nicht kommerziell)
Hauptmerkmale
Konversationelle Prosodie — natürliche Pausen, Füllwörter und Intonation, abgestimmt auf Dialoge
Feinsteuerungs-Tags —
[oral_0-9],[laugh_0-2],[break_0-7],[uv_break],[lbreak]Mehrere Sprecher — zufällige Sprecher sampeln oder Sprecher-Embeddings wiederverwenden für Konsistenz
Temperature / top-P / top-K — steuert die Vielfalt der Generierung
Batch-Inferenz — mehrere Texte in einem Aufruf synthetisieren
Leichtgewichtig — ~300M Parameter, läuft mit 4 GB VRAM
Anforderungen
GPU
RTX 3060 (4 GB frei)
RTX 3090 / RTX 4090
VRAM
4 GB
8 GB+
RAM
8 GB
16 GB
Festplatte
5 GB
10 GB
Python
3.9+
3.11
CUDA
11.8+
12.1+
Clore.ai-Empfehlung: Eine RTX 3060 ($0.15–0.30/Tag) bewältigt ChatTTS problemlos. Für Batch-Produktion oder geringere Latenz wählen Sie eine RTX 3090 ($0.30–1.00/Tag).
Installation
Schnellstart
Beispielanwendungen
Konsistente Sprecherstimme
Sampeln Sie ein zufälliges Sprecher-Embedding und verwenden Sie es über mehrere Generierungen hinweg für eine konsistente Stimme:
Wortbasierte Steuertags
Fügen Sie Steuertags direkt in den Text ein für präzise Prosodie:
Batch-Verarbeitung mit WebUI
ChatTTS wird mit einer Gradio-Weboberfläche für interaktive Nutzung geliefert:
Öffnen Sie die http_pub URL von Ihrem Clore.ai Bestelldashboard, um auf die UI zuzugreifen.
Tipps für Clore.ai-Nutzer
Verwenden Sie
compile=Truenach ersten Tests — PyTorch-Kompilierung fügt Startzeit hinzu, beschleunigt aber wiederholte Inferenz deutlichPort-Weiterleitung — Port freigeben
7860/httpbei Bereitstellung mit der WebUIDocker-Image — verwenden Sie
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtimeals BasisSprecher-Persistenz — speichern
rand_spkStrings in einer Datei, damit Sie Stimmen zwischen Sitzungen wiederverwenden können, ohne neu zu sampelnBündeln Sie Ihre Anfragen —
chat.infer()akzeptiert eine Liste von Texten und verarbeitet sie zusammen, was effizienter ist als EinzelaufrufeNicht-kommerzielle Lizenz — die Modellgewichte sind CC BY-NC 4.0; prüfen Sie die Lizenzanforderungen für Ihren Anwendungsfall
Fehlerbehebung
CUDA out of memory
Reduzieren Sie die Batch-Größe oder verwenden Sie eine GPU mit ≥ 6 GB VRAM
Modell lädt langsam herunter
Vorab herunterladen von HuggingFace: huggingface-cli download 2Noise/ChatTTS
Audio hat Brummen/Rauschen
Dies ist im Open-Source-Modell beabsichtigt (Maßnahme gegen Missbrauch); verwenden Sie compile=True für sauberere Ausgabe
torchaudio.save Dimensionsfehler
Stellen Sie sicher, dass der Tensor 2D ist: audio.unsqueeze(0) falls erforderlich
Unleserliche chinesische Ausgabe
Stellen Sie sicher, dass der Eingabetext UTF-8-codiert ist; installieren Sie WeTextProcessing für bessere Normalisierung
Langsame erste Inferenz
Normal — Modellkompilierung und Laden der Gewichte erfolgen beim ersten Aufruf; nachfolgende Aufrufe sind schneller
Zuletzt aktualisiert
War das hilfreich?