ChatTTS discours conversationnel
Exécutez la synthèse vocale conversationnelle ChatTTS avec contrôle fin de la prosodie sur les GPU Clore.ai.
ChatTTS est un modèle de synthèse vocale génératif de 300 millions de paramètres optimisé pour des scénarios de dialogue tels que les assistants LLM, les chatbots et les applications vocales interactives. Il produit une voix naturelle avec des pauses réalistes, des rires, des remplisseurs et une intonation — des caractéristiques que la plupart des systèmes TTS ont du mal à reproduire. Le modèle prend en charge l'anglais et le chinois et génère de l'audio à 24 kHz.
GitHub : 2noise/ChatTTS (30K+ étoiles) Licence : AGPLv3+ (code), CC BY-NC 4.0 (poids du modèle — non commercial)
Principales caractéristiques
Prosodie conversationnelle — pauses naturelles, remplisseurs et intonation ajustés pour le dialogue
Balises de contrôle fines —
[oral_0-9],[laugh_0-2],[break_0-7],[uv_break],[lbreak]Multi-locuteur — échantillonnez des locuteurs aléatoires ou réutilisez des embeddings de locuteur pour la cohérence
Température / top-P / top-K — contrôler la diversité de génération
Inférence par lot — synthétiser plusieurs textes en un seul appel
Léger — ~300M de paramètres, fonctionne avec 4 Go de VRAM
Exigences
GPU
RTX 3060 (4 Go libres)
RTX 3090 / RTX 4090
VRAM
4 Go
8 Go+
RAM
8 Go
16 Go
Disque
5 Go
10 Go
Python
3.9+
3.11
CUDA
11.8+
12.1+
Recommandation Clore.ai : Un RTX 3060 (($0,15–0,30/jour) gère ChatTTS confortablement. Pour la production par lot ou une latence plus faible, choisissez une RTX 3090 ($0,30–1,00/jour).
Installation
Démarrage rapide
Exemples d'utilisation
Voix de locuteur cohérente
Échantillonnez un embedding de locuteur aléatoire et réutilisez-le sur plusieurs générations pour une voix cohérente :
Balises de contrôle au niveau des mots
Insérez des balises de contrôle directement dans le texte pour une prosodie précise :
Traitement par lot avec WebUI
ChatTTS est livré avec une interface web Gradio pour une utilisation interactive :
Ouvrez le http_pub URL depuis votre tableau de bord de commande Clore.ai pour accéder à l'interface.
Conseils pour les utilisateurs de Clore.ai
Utilisez
compile=Trueaprès les tests initiaux — la compilation PyTorch ajoute un temps de démarrage mais accélère considérablement les inférences répétéesMappage de ports — exposer le port
7860/httplors du déploiement avec la WebUIImage Docker — utiliser
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtimecomme basePersistance du locuteur — enregistrer
rand_spkchaînes dans un fichier afin que vous puissiez réutiliser des voix entre les sessions sans rééchantillonnageRegroupez vos requêtes —
chat.infer()accepte une liste de textes et les traite ensemble, ce qui est plus efficace que des appels un par unLicence non commerciale — les poids du modèle sont sous CC BY-NC 4.0 ; vérifiez les exigences de licence pour votre cas d'utilisation
Dépannage
CUDA out of memory
Réduisez la taille du lot ou utilisez un GPU avec ≥ 6 Go de VRAM
Le modèle se télécharge lentement
Pré-téléchargez depuis HuggingFace : huggingface-cli download 2Noise/ChatTTS
L'audio contient des crépitements/bruit
Ceci est intentionnel dans le modèle open-source (mesure anti-abus) ; utilisez compile=True pour une sortie plus propre
torchaudio.save erreur de dimension
Assurez-vous que le tenseur est 2D : audio.unsqueeze(0) si nécessaire
Sortie chinoise brouillée
Assurez-vous que le texte d'entrée est encodé en UTF-8 ; installez WeTextProcessing pour une meilleure normalisation
Première inférence lente
Normal — la compilation du modèle et le chargement des poids ont lieu au premier appel ; les appels suivants sont plus rapides
Mis à jour
Ce contenu vous a-t-il été utile ?