Clonación de Voz Zonos TTS
Ejecuta Zonos TTS de Zyphra para clonación de voz con control de emoción y tono en GPUs de Clore.ai.
Zonos por Zyphra es un modelo de texto a voz de pesos abiertos de 0,4B parámetros entrenado en más de 200K horas de habla multilingüe. Realiza clonación de voz en zero-shot con solo 2–30 segundos de audio de referencia y ofrece control fino sobre la emoción, la velocidad de habla, la variación de tono y la calidad de audio. La salida es audio de alta fidelidad a 44 kHz. Hay dos variantes de modelo disponibles: Transformer (mejor calidad) y Hybrid/Mamba (inferencia más rápida).
GitHub: Zyphra/Zonos HuggingFace: Zyphra/Zonos-v0.1-transformer Licencia: Apache 2.0
Características clave
Clonación de voz desde 2–30 segundos — no se requiere ajuste fino
Salida de alta fidelidad a 44 kHz — calidad de audio de nivel de estudio
Control de emoción — felicidad, tristeza, ira, miedo, sorpresa, asco mediante vector 8D
Velocidad de habla y tono — control fino e independiente
Entradas de prefijo de audio — permite susurros y otros comportamientos difíciles de clonar
Multilingüe — Inglés, japonés, chino, francés, alemán
Dos arquitecturas — Transformer (calidad) y Hybrid/Mamba (velocidad, ~2× en tiempo real en RTX 4090)
Apache 2.0 — gratis para uso personal y comercial
Requisitos
GPU
RTX 3080 10 GB
RTX 4090 24 GB
VRAM
6 GB (Transformer)
10 GB+
RAM
16 GB
32 GB
Disco
10 GB
20 GB
Python
3.10+
3.11
CUDA
11.8+
12.4
Sistema
espeak-ng
—
Recomendación de Clore.ai: RTX 3090 ($0.30–1.00/día) para margen cómodo. RTX 4090 ($0.50–2.00/día) para el modelo Hybrid y la inferencia más rápida.
Instalación
Inicio rápido
Ejemplos de uso
Control de emoción
Zonos acepta un vector de emoción de 8 dimensiones: [felicidad, tristeza, asco, miedo, sorpresa, ira, otro, neutral].
Control de velocidad de habla y tono
Interfaz web Gradio
Exponer puerto 7860/http en tu pedido de Clore.ai y abre la http_pub URL para acceder a la interfaz.
Consejos para usuarios de Clore.ai
Elección de modelo — Transformer para la mejor calidad, Hybrid para ~2× inferencia más rápida (requiere GPU RTX 3000+)
Audio de referencia — 10–30 segundos de habla limpia dan mejores resultados; clips más cortos (2–5s) funcionan pero con menor fidelidad
Configuración con Docker — usar
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, agregaapt-get install -y espeak-ngal inicioMapeo de puertos — exponer
7860/httppara la interfaz Gradio,8000/httppara el servidor APIControl de semilla — establece
torch.manual_seed()antes de la generación para salida reproducibleParámetro de calidad de audio — experimenta con el
audio_qualitycampo de condicionamiento para una salida más limpia
Solución de problemas
espeak-ng no encontrado
Ejecuta apt-get install -y espeak-ng (requerido para la fonemización)
CUDA fuera de memoria
Usa el modelo Transformer (más pequeño que Hybrid); reduce la longitud de texto por llamada
El modelo Hybrid falla
Requiere GPU Ampere+ (serie RTX 3000 o más reciente) y pip install -e ".[compile]"
La voz clonada suena extraña
Usa un clip de referencia más largo (15–30s) con habla clara y ruido de fondo mínimo
Generación lenta
Normal para Transformer (~0.5× en tiempo real); Hybrid alcanza ~2× en tiempo real en RTX 4090
ModuleNotFoundError: zonos
Asegúrate de haber instalado desde la fuente: cd Zonos && pip install -e .
Última actualización
¿Te fue útil?