ChatTTS discours conversationnel

Exécutez la synthèse vocale conversationnelle ChatTTS avec contrôle fin de la prosodie sur les GPU Clore.ai.

ChatTTS est un modèle de synthèse vocale génératif de 300 millions de paramètres optimisé pour des scénarios de dialogue tels que les assistants LLM, les chatbots et les applications vocales interactives. Il produit une voix naturelle avec des pauses réalistes, des rires, des remplisseurs et une intonation — des caractéristiques que la plupart des systèmes TTS ont du mal à reproduire. Le modèle prend en charge l'anglais et le chinois et génère de l'audio à 24 kHz.

GitHub : 2noise/ChatTTSarrow-up-right (30K+ étoiles) Licence : AGPLv3+ (code), CC BY-NC 4.0 (poids du modèle — non commercial)

Principales caractéristiques

  • Prosodie conversationnelle — pauses naturelles, remplisseurs et intonation ajustés pour le dialogue

  • Balises de contrôle fines[oral_0-9], [laugh_0-2], [break_0-7], [uv_break], [lbreak]

  • Multi-locuteur — échantillonnez des locuteurs aléatoires ou réutilisez des embeddings de locuteur pour la cohérence

  • Température / top-P / top-K — contrôler la diversité de génération

  • Inférence par lot — synthétiser plusieurs textes en un seul appel

  • Léger — ~300M de paramètres, fonctionne avec 4 Go de VRAM

Exigences

Composant
Minimum
Recommandé

GPU

RTX 3060 (4 Go libres)

RTX 3090 / RTX 4090

VRAM

4 Go

8 Go+

RAM

8 Go

16 Go

Disque

5 Go

10 Go

Python

3.9+

3.11

CUDA

11.8+

12.1+

Recommandation Clore.ai : Un RTX 3060 (($0,15–0,30/jour) gère ChatTTS confortablement. Pour la production par lot ou une latence plus faible, choisissez une RTX 3090 ($0,30–1,00/jour).

Installation

Démarrage rapide

Exemples d'utilisation

Voix de locuteur cohérente

Échantillonnez un embedding de locuteur aléatoire et réutilisez-le sur plusieurs générations pour une voix cohérente :

Balises de contrôle au niveau des mots

Insérez des balises de contrôle directement dans le texte pour une prosodie précise :

Traitement par lot avec WebUI

ChatTTS est livré avec une interface web Gradio pour une utilisation interactive :

Ouvrez le http_pub URL depuis votre tableau de bord de commande Clore.ai pour accéder à l'interface.

Conseils pour les utilisateurs de Clore.ai

  • Utilisez compile=True après les tests initiaux — la compilation PyTorch ajoute un temps de démarrage mais accélère considérablement les inférences répétées

  • Mappage de ports — exposer le port 7860/http lors du déploiement avec la WebUI

  • Image Docker — utiliser pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime comme base

  • Persistance du locuteur — enregistrer rand_spk chaînes dans un fichier afin que vous puissiez réutiliser des voix entre les sessions sans rééchantillonnage

  • Regroupez vos requêteschat.infer() accepte une liste de textes et les traite ensemble, ce qui est plus efficace que des appels un par un

  • Licence non commerciale — les poids du modèle sont sous CC BY-NC 4.0 ; vérifiez les exigences de licence pour votre cas d'utilisation

Dépannage

Problème
Solution

CUDA out of memory

Réduisez la taille du lot ou utilisez un GPU avec ≥ 6 Go de VRAM

Le modèle se télécharge lentement

Pré-téléchargez depuis HuggingFace : huggingface-cli download 2Noise/ChatTTS

L'audio contient des crépitements/bruit

Ceci est intentionnel dans le modèle open-source (mesure anti-abus) ; utilisez compile=True pour une sortie plus propre

torchaudio.save erreur de dimension

Assurez-vous que le tenseur est 2D : audio.unsqueeze(0) si nécessaire

Sortie chinoise brouillée

Assurez-vous que le texte d'entrée est encodé en UTF-8 ; installez WeTextProcessing pour une meilleure normalisation

Première inférence lente

Normal — la compilation du modèle et le chargement des poids ont lieu au premier appel ; les appels suivants sont plus rapides

Mis à jour

Ce contenu vous a-t-il été utile ?