Clonación de Voz Chatterbox

Ejecuta Chatterbox TTS de Resemble AI para clonación de voz zero-shot y síntesis de habla multilingüe en GPUs de Clore.ai.

Chatterbox es una familia de modelos de texto a voz de última generación y código abierto de Resemble AIarrow-up-right. Realiza clonación de voz en cero disparos a partir de un breve clip de referencia (~10 segundos), admite etiquetas paralingüísticas como [risa] y [tos], y ofrece una variante multilingüe que cubre más de 23 idiomas. Hay tres variantes de modelos disponibles: Turbo (350M, baja latencia), Original (500M, controles creativos) y Multilingual (500M, 23+ idiomas).

GitHub: resemble-ai/chatterboxarrow-up-right PyPI: chatterbox-ttsarrow-up-right Licencia: MIT

Características clave

  • Clonación de voz zero-shot — clona cualquier voz a partir de ~10 segundos de audio de referencia

  • Etiquetas paralingüísticas (Turbo) — [risa], [tos], [risita], [suspiro] para discurso realista

  • Más de 23 idiomas (Multilingual) — árabe, chino, francés, alemán, japonés, coreano, ruso, español y más

  • Ajuste de CFG y exageración (Original) — control creativo sobre la expresividad

  • Tres tamaños de modelo — Turbo (350M), Original (500M), Multilingual (500M)

  • Licencia MIT — completamente abierto para uso comercial

Requisitos

Componente
Mínimo
Recomendado

GPU

RTX 3060 12 GB

RTX 3090 / RTX 4090

VRAM

6 GB

10 GB+

RAM

8 GB

16 GB

Disco

5 GB

15 GB

Python

3.10+

3.11

CUDA

11.8+

12.1+

Recomendación de Clore.ai: RTX 3090 ($0.30–1.00/día) para un margen cómodo de VRAM. RTX 3060 funciona para el modelo Turbo. Para el modelo Multilingual con textos largos, considere una RTX 4090 ($0.50–2.00/día).

Instalación

Inicio rápido

Modelo Turbo (Latencia más baja)

Modelo Original (Inglés, Controles Creativos)

Ejemplos de uso

Clonación de voz multilingüe

Etiquetas paralingüísticas (Turbo)

Script de procesamiento por lotes

Consejos para usuarios de Clore.ai

  • Elección de modelo — use Turbo para agentes de voz de baja latencia, Original para trabajos creativos en inglés, Multilingual para contenido en otros idiomas

  • Calidad del audio de referencia — utilice un clip limpio y sin ruido de 10–30 segundos para obtener los mejores resultados de clonación de voz

  • Configuración con Docker — imagen base pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, exponer puerto 7860/http para Gradio

  • Gestión de memoria — llama a torch.cuda.empty_cache() entre lotes grandes para liberar VRAM

  • Idiomas compatibles — ar, da, de, el, en, es, fi, fr, he, hi, it, ja, ko, ms, nl, no, pl, pt, ru, sv, sw, tr, zh

  • Espacio de HuggingFace — prueba antes de alquilar en huggingface.co/spaces/ResembleAI/Chatterboxarrow-up-right

Solución de problemas

Problema
Solución

CUDA fuera de memoria

Use Turbo (350M) en lugar de Original/Multilingual (500M), o alquile una GPU más grande

La voz clonada no coincide

Use un clip de referencia más largo (15–30s) y más limpio con ruido de fondo mínimo

numpy conflicto de versión

Ejecuta pip install numpy==1.26.4 --force-reinstall

Descarga lenta del modelo

Los modelos se obtienen de HuggingFace en la primera ejecución (~2 GB); pre-descárguelos con huggingface-cli

El audio tiene artefactos

Reduzca la longitud del texto por generación; textos muy largos pueden degradar la calidad

ModuleNotFoundError

Asegúrate de pip install chatterbox-tts completado sin errores; verifique la compatibilidad con Python 3.11

Última actualización

¿Te fue útil?