Clonación de Voz Kani-TTS-2

Ejecuta Kani-TTS-2 — un modelo de texto a voz ultraeficiente de 400M parámetros con clonación de voz en GPUs de Clore.ai

Kani-TTS-2 de nineninesix.ai (lanzado el 15 de febrero de 2026) es un modelo de texto a voz de código abierto de 400 millones de parámetros que consigue síntesis de voz de alta fidelidad usando solo 3 GB de VRAM. Construido sobre la arquitectura LFM2 de LiquidAI con NVIDIA NanoCodec, trata el audio como un lenguaje: genera voz de sonido natural con clonación de voz zero-shot a partir de un breve clip de audio de referencia. Con menos de la mitad del tamaño de modelos competidores y una fracción del cómputo, Kani-TTS-2 es perfecto para IA conversacional en tiempo real, generación de audiolibros y clonación de voz en hardware económico.

HuggingFace: nineninesix/kani-tts-2-enarrow-up-right GitHub: nineninesix-ai/kani-tts-2arrow-up-right PyPI: kani-tts-2arrow-up-right Licencia: Apache 2.0

Características clave

  • 400M parámetros, 3GB VRAM — funciona en prácticamente cualquier GPU moderna, incluida la RTX 3060

  • Clonación de voz zero-shot — clona cualquier voz desde una muestra de audio de referencia de 3–30 segundos

  • Incrustaciones de locutor — representaciones de locutor de 128 dimensiones basadas en WavLM para control preciso de la voz

  • Hasta 40 segundos de audio continuo — adecuado para pasajes más largos y diálogos

  • En tiempo real o más rápido — RTF ~0.2 en RTX 5080, en tiempo real incluso en GPUs económicas

  • Apache 2.0 — totalmente abierto para uso personal y comercial

  • Marco de preentrenamiento incluido — entrena tu propio modelo TTS desde cero en cualquier idioma

Comparación con otros modelos TTS

Modelo
Parámetros
VRAM mínima
Clonación de voz
Idioma
Licencia

Kani-TTS-2

400M

3GB

✅ Zero-shot

Inglés (extensible)

Apache 2.0

Kokoro

82M

2GB

❌ Voces predefinidas

EN, JP, CN

Apache 2.0

Zonos

400M

8GB

Multi

Apache 2.0

ChatTTS

300M

4GB

❌ Semillas aleatorias

Chino, Inglés

AGPL 3.0

Chatterbox

500M

6GB

Inglés

Apache 2.0

XTTS (Coqui)

467M

6GB

Multi

MPL 2.0

F5-TTS

335M

4GB

Multi

CC-BY-NC 4.0

Requisitos

Componente
Mínimo
Recomendado

GPU

Cualquiera con 3GB de VRAM

RTX 3060 o mejor

VRAM

3GB

6GB

RAM

8GB

16GB

Disco

2GB

5GB

Python

3.9+

3.11+

CUDA

11.8+

12.0+

Recomendación de Clore.ai: Una RTX 3060 ($0.15–0.30/día) es más que suficiente. Incluso las instancias GPU más baratas en Clore.ai ejecutarán Kani-TTS-2 sin problemas. Para procesamiento por lotes (audiolibros, conjuntos de datos), una RTX 4090 ($0.5–2/día) proporciona un rendimiento excelente.

Instalación

Inicio rápido

Tres líneas para generar voz:

Ejemplos de uso

1. Texto-a-voz básico

2. Clonación de voz

Clona cualquier voz a partir de una breve muestra de audio de referencia:

3. Generación por lotes para audiolibros

Genera múltiples capítulos de forma eficiente:

4. API de streaming compatible con OpenAI

Para aplicaciones en tiempo real, usa el servidor compatible con OpenAI:

Luego úsalo con cualquier cliente TTS de OpenAI:

Consejos para usuarios de Clore.ai

  1. Este es el modelo más barato para ejecutar — Con 3GB de VRAM, Kani-TTS-2 funciona literalmente en cualquier instancia GPU en Clore.ai. Una RTX 3060 a $0.15/día es más que suficiente para TTS en producción.

  2. Combinar con un modelo de lenguaje — Alquila una instancia GPU y ejecuta simultáneamente un LLM pequeño (por ejemplo, Mistral 3 8B) y Kani-TTS-2 para un asistente de voz completo. Compartirán la GPU con margen disponible.

  3. Precalcular incrustaciones de locutor — Extrae las incrustaciones de los locutores una vez y guárdalas. Esto evita cargar el modelo incrustador WavLM en cada solicitud.

  4. Usar el servidor compatible con OpenAI — El kani-tts-2-openai-server proporciona un reemplazo directo para la API TTS de OpenAI, lo que facilita la integración con aplicaciones existentes.

  5. Entrenar en idiomas personalizados — Kani-TTS-2 incluye un marco completo de preentrenamiento (kani-tts-2-pretrainarrow-up-right). Ajusta el modelo en tu propio conjunto de datos de idioma: solo requiere 8× H100 durante ~6 horas.

Solución de problemas

Problema
Solución

ImportError: no se puede importar LFM2

Instala la versión correcta de transformers: pip install -U "transformers==4.56.0"

La calidad de audio es pobre / robótica

Aumente temperature a 0.8–0.9; asegúrate de que el audio de referencia para la clonación esté limpio (sin ruido de fondo)

La clonación de voz no suena como la referencia

Usa 5–15 segundos de audio claro de un solo hablante. Evita música o ruido de fondo en la referencia

CUDA fuera de memoria

No debería ocurrir con el modelo de 3GB — verifica si otros procesos están usando memoria GPU (nvidia-smi)

El audio se corta a mitad de frase

Kani-TTS-2 admite hasta ~40 segundos. Divide textos más largos en oraciones y concatena las salidas

Lento en CPU

Se recomienda encarecidamente la inferencia en GPU. Incluso una GPU básica es de 10–50× más rápida que la CPU

Lecturas adicionales

Última actualización

¿Te fue útil?