Clonación de Voz Zonos TTS

Ejecuta Zonos TTS de Zyphra para clonación de voz con control de emoción y tono en GPUs de Clore.ai.

Zonos por Zyphraarrow-up-right es un modelo de texto a voz de pesos abiertos de 0,4B parámetros entrenado en más de 200K horas de habla multilingüe. Realiza clonación de voz en zero-shot con solo 2–30 segundos de audio de referencia y ofrece control fino sobre la emoción, la velocidad de habla, la variación de tono y la calidad de audio. La salida es audio de alta fidelidad a 44 kHz. Hay dos variantes de modelo disponibles: Transformer (mejor calidad) y Hybrid/Mamba (inferencia más rápida).

GitHub: Zyphra/Zonosarrow-up-right HuggingFace: Zyphra/Zonos-v0.1-transformerarrow-up-right Licencia: Apache 2.0

Características clave

  • Clonación de voz desde 2–30 segundos — no se requiere ajuste fino

  • Salida de alta fidelidad a 44 kHz — calidad de audio de nivel de estudio

  • Control de emoción — felicidad, tristeza, ira, miedo, sorpresa, asco mediante vector 8D

  • Velocidad de habla y tono — control fino e independiente

  • Entradas de prefijo de audio — permite susurros y otros comportamientos difíciles de clonar

  • Multilingüe — Inglés, japonés, chino, francés, alemán

  • Dos arquitecturas — Transformer (calidad) y Hybrid/Mamba (velocidad, ~2× en tiempo real en RTX 4090)

  • Apache 2.0 — gratis para uso personal y comercial

Requisitos

Componente
Mínimo
Recomendado

GPU

RTX 3080 10 GB

RTX 4090 24 GB

VRAM

6 GB (Transformer)

10 GB+

RAM

16 GB

32 GB

Disco

10 GB

20 GB

Python

3.10+

3.11

CUDA

11.8+

12.4

Sistema

espeak-ng

Recomendación de Clore.ai: RTX 3090 ($0.30–1.00/día) para margen cómodo. RTX 4090 ($0.50–2.00/día) para el modelo Hybrid y la inferencia más rápida.

Instalación

Inicio rápido

Ejemplos de uso

Control de emoción

Zonos acepta un vector de emoción de 8 dimensiones: [felicidad, tristeza, asco, miedo, sorpresa, ira, otro, neutral].

Control de velocidad de habla y tono

Interfaz web Gradio

Exponer puerto 7860/http en tu pedido de Clore.ai y abre la http_pub URL para acceder a la interfaz.

Consejos para usuarios de Clore.ai

  • Elección de modelo — Transformer para la mejor calidad, Hybrid para ~2× inferencia más rápida (requiere GPU RTX 3000+)

  • Audio de referencia — 10–30 segundos de habla limpia dan mejores resultados; clips más cortos (2–5s) funcionan pero con menor fidelidad

  • Configuración con Docker — usar pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, agrega apt-get install -y espeak-ng al inicio

  • Mapeo de puertos — exponer 7860/http para la interfaz Gradio, 8000/http para el servidor API

  • Control de semilla — establece torch.manual_seed() antes de la generación para salida reproducible

  • Parámetro de calidad de audio — experimenta con el audio_quality campo de condicionamiento para una salida más limpia

Solución de problemas

Problema
Solución

espeak-ng no encontrado

Ejecuta apt-get install -y espeak-ng (requerido para la fonemización)

CUDA fuera de memoria

Usa el modelo Transformer (más pequeño que Hybrid); reduce la longitud de texto por llamada

El modelo Hybrid falla

Requiere GPU Ampere+ (serie RTX 3000 o más reciente) y pip install -e ".[compile]"

La voz clonada suena extraña

Usa un clip de referencia más largo (15–30s) con habla clara y ruido de fondo mínimo

Generación lenta

Normal para Transformer (~0.5× en tiempo real); Hybrid alcanza ~2× en tiempo real en RTX 4090

ModuleNotFoundError: zonos

Asegúrate de haber instalado desde la fuente: cd Zonos && pip install -e .

Última actualización

¿Te fue útil?