ChatTTS Voz Conversacional
Ejecuta ChatTTS de texto a voz conversacional con control de prosodia de grano fino en GPUs de Clore.ai.
ChatTTS es un modelo generativo de voz de 300 millones de parámetros optimizado para escenarios de diálogo como asistentes LLM, chatbots y aplicaciones de voz interactivas. Produce una voz de sonido natural con pausas realistas, risas, muletillas e entonación — características que la mayoría de los sistemas TTS tienen dificultades para reproducir. El modelo admite inglés y chino y genera audio a 24 kHz.
GitHub: 2noise/ChatTTS (30K+ estrellas) Licencia: AGPLv3+ (código), CC BY-NC 4.0 (pesos del modelo — no comercial)
Características clave
Prosodia conversacional — pausas naturales, muletillas y entonación afinadas para diálogo
Etiquetas de control de grano fino —
[oral_0-9],[laugh_0-2],[break_0-7],[uv_break],[lbreak]Multivoz — muestrea hablantes aleatorios o reutiliza embeddings de hablante para consistencia
Temperatura / top-P / top-K — controlar la diversidad de la generación
Inferencia por lotes — sintetiza múltiples textos en una sola llamada
Ligero — ~300M de parámetros, funciona con 4 GB de VRAM
Requisitos
GPU
RTX 3060 (4 GB libres)
RTX 3090 / RTX 4090
VRAM
4 GB
8 GB+
RAM
8 GB
16 GB
Disco
5 GB
10 GB
Python
3.9+
3.11
CUDA
11.8+
12.1+
Recomendación de Clore.ai: Una RTX 3060 ($0.15–0.30/día) maneja ChatTTS con comodidad. Para producción por lotes o menor latencia, elige una RTX 3090 ($0.30–1.00/día).
Instalación
Inicio rápido
Ejemplos de uso
Voz de hablante consistente
Muestra un embedding de hablante aleatorio y reutilízalo en múltiples generaciones para una voz consistente:
Etiquetas de control a nivel de palabra
Inserta etiquetas de control directamente en el texto para una prosodia precisa:
Procesamiento por lotes con WebUI
ChatTTS incluye una interfaz web Gradio para uso interactivo:
Abre el http_pub URL desde el panel de pedidos de Clore.ai para acceder a la interfaz.
Consejos para usuarios de Clore.ai
Usa
compile=Truedespués de las pruebas iniciales — la compilación de PyTorch añade tiempo de inicio pero acelera significativamente la inferencia repetidaMapeo de puertos — exponer puerto
7860/httpal desplegar con la WebUIImagen Docker — usar
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtimecomo basePersistencia de hablante — guardar
rand_spkcadenas en un archivo para que puedas reutilizar voces entre sesiones sin volver a muestrearAgrupa tus solicitudes —
chat.infer()acepta una lista de textos y los procesa juntos, lo cual es más eficiente que llamadas una por unaLicencia no comercial — los pesos del modelo son CC BY-NC 4.0; verifica los requisitos de licencia para tu caso de uso
Solución de problemas
CUDA fuera de memoria
Reduce el tamaño del lote o usa una GPU con ≥ 6 GB de VRAM
El modelo se descarga lentamente
Pre-descarga desde HuggingFace: huggingface-cli download 2Noise/ChatTTS
El audio tiene estática/ruido
Esto es intencional en el modelo de código abierto (medida anti-abuso); usa compile=True para una salida más limpia
torchaudio.save error de dimensión
Asegúrate de que el tensor sea 2D: audio.unsqueeze(0) si es necesario
Salida en chino distorsionada
Asegúrate de que el texto de entrada esté codificado en UTF-8; instala WeTextProcessing para una mejor normalización
Primera inferencia lenta
Normal — la compilación del modelo y la carga de pesos ocurren en la primera llamada; las llamadas posteriores son más rápidas
Última actualización
¿Te fue útil?