ChatTTS Konversationelle Sprache

Führen Sie ChatTTS konversationelles Text-to-Speech mit fein abgestimmter Prosodie-Steuerung auf Clore.ai GPUs aus.

ChatTTS ist ein generatives Sprachmodell mit 300 Millionen Parametern, optimiert für Dialogszenarien wie LLM-Assistenten, Chatbots und interaktive Sprachanwendungen. Es erzeugt natürlich klingende Sprache mit realistischen Pausen, Lachen, Füllwörtern und Intonation – Eigenschaften, die die meisten TTS-Systeme nur schwer nachbilden. Das Modell unterstützt Englisch und Chinesisch und generiert Audio mit 24 kHz.

GitHub: 2noise/ChatTTSarrow-up-right (30K+ Sterne) Lizenz: AGPLv3+ (Code), CC BY-NC 4.0 (Modellgewichte – nicht kommerziell)

Hauptmerkmale

  • Konversationelle Prosodie — natürliche Pausen, Füllwörter und Intonation, abgestimmt auf Dialoge

  • Feinsteuerungs-Tags[oral_0-9], [laugh_0-2], [break_0-7], [uv_break], [lbreak]

  • Mehrere Sprecher — zufällige Sprecher sampeln oder Sprecher-Embeddings wiederverwenden für Konsistenz

  • Temperature / top-P / top-K — steuert die Vielfalt der Generierung

  • Batch-Inferenz — mehrere Texte in einem Aufruf synthetisieren

  • Leichtgewichtig — ~300M Parameter, läuft mit 4 GB VRAM

Anforderungen

Komponente
Minimum
Empfohlen

GPU

RTX 3060 (4 GB frei)

RTX 3090 / RTX 4090

VRAM

4 GB

8 GB+

RAM

8 GB

16 GB

Festplatte

5 GB

10 GB

Python

3.9+

3.11

CUDA

11.8+

12.1+

Clore.ai-Empfehlung: Eine RTX 3060 ($0.15–0.30/Tag) bewältigt ChatTTS problemlos. Für Batch-Produktion oder geringere Latenz wählen Sie eine RTX 3090 ($0.30–1.00/Tag).

Installation

Schnellstart

Beispielanwendungen

Konsistente Sprecherstimme

Sampeln Sie ein zufälliges Sprecher-Embedding und verwenden Sie es über mehrere Generierungen hinweg für eine konsistente Stimme:

Wortbasierte Steuertags

Fügen Sie Steuertags direkt in den Text ein für präzise Prosodie:

Batch-Verarbeitung mit WebUI

ChatTTS wird mit einer Gradio-Weboberfläche für interaktive Nutzung geliefert:

Öffnen Sie die http_pub URL von Ihrem Clore.ai Bestelldashboard, um auf die UI zuzugreifen.

Tipps für Clore.ai-Nutzer

  • Verwenden Sie compile=True nach ersten Tests — PyTorch-Kompilierung fügt Startzeit hinzu, beschleunigt aber wiederholte Inferenz deutlich

  • Port-Weiterleitung — Port freigeben 7860/http bei Bereitstellung mit der WebUI

  • Docker-Image — verwenden Sie pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime als Basis

  • Sprecher-Persistenz — speichern rand_spk Strings in einer Datei, damit Sie Stimmen zwischen Sitzungen wiederverwenden können, ohne neu zu sampeln

  • Bündeln Sie Ihre Anfragenchat.infer() akzeptiert eine Liste von Texten und verarbeitet sie zusammen, was effizienter ist als Einzelaufrufe

  • Nicht-kommerzielle Lizenz — die Modellgewichte sind CC BY-NC 4.0; prüfen Sie die Lizenzanforderungen für Ihren Anwendungsfall

Fehlerbehebung

Problem
Lösung

CUDA out of memory

Reduzieren Sie die Batch-Größe oder verwenden Sie eine GPU mit ≥ 6 GB VRAM

Modell lädt langsam herunter

Vorab herunterladen von HuggingFace: huggingface-cli download 2Noise/ChatTTS

Audio hat Brummen/Rauschen

Dies ist im Open-Source-Modell beabsichtigt (Maßnahme gegen Missbrauch); verwenden Sie compile=True für sauberere Ausgabe

torchaudio.save Dimensionsfehler

Stellen Sie sicher, dass der Tensor 2D ist: audio.unsqueeze(0) falls erforderlich

Unleserliche chinesische Ausgabe

Stellen Sie sicher, dass der Eingabetext UTF-8-codiert ist; installieren Sie WeTextProcessing für bessere Normalisierung

Langsame erste Inferenz

Normal — Modellkompilierung und Laden der Gewichte erfolgen beim ersten Aufruf; nachfolgende Aufrufe sind schneller

Zuletzt aktualisiert

War das hilfreich?