Kokoro TTS

Ejecuta Kokoro TTS: un modelo TTS ultraligero de 82M de parámetros en las GPU de Clore.ai.

Kokoro es un modelo de texto a voz de 82 millones de parámetros que rinde mucho más de lo que su categoría sugiere. A pesar de su tamaño diminuto (menos de 2 GB de VRAM), produce un habla en inglés notablemente natural y se ejecuta a velocidades en tiempo real o superiores incluso en hardware económico. Con licencia Apache 2.0, múltiples estilos de voz incorporados y soporte de inferencia en CPU, Kokoro es ideal para aplicaciones en tiempo real, chatbots y despliegues en el edge.

HuggingFace: hexgrad/Kokoro-82Marrow-up-right PyPI: kokoroarrow-up-right Licencia: Apache 2.0

Características clave

  • 82M parámetros — uno de los modelos TTS de alta calidad más pequeños disponibles

  • < 2 GB VRAM — se ejecuta en prácticamente cualquier GPU e incluso en CPU

  • Múltiples estilos de voz — inglés americano, inglés británico; voces masculinas y femeninas

  • En tiempo real o más rápido — inferencia de baja latencia adecuada para streaming

  • Generación en streaming — produce fragmentos de audio a medida que se generan

  • Soporte multilingüe — inglés (principal), japonés (misaki[ja]), chino (misaki[zh])

  • Apache 2.0 — gratis para uso personal y comercial

Requisitos

Componente
Mínimo
Recomendado

GPU

Cualquiera con 2 GB VRAM

RTX 3060

VRAM

2 GB

4 GB

RAM

4 GB

8 GB

Disco

500 MB

1 GB

Python

3.9+

3.11

Sistema

espeak-ng instalado

Recomendación de Clore.ai: Una RTX 3060 (~$0.15–0.30/día) es más que suficiente. Kokoro incluso puede ejecutarse en instancias solo con CPU para TTS extremadamente rentable.

Instalación

Inicio rápido

Ejemplos de uso

Comparación de múltiples voces

Genera el mismo texto con diferentes voces para comparar:

Inglés británico con control de velocidad

Procesamiento por lotes de archivos

Procesa múltiples textos y concaténalos en un único archivo al estilo audiolibro:

Consejos para usuarios de Clore.ai

  • Inferencia en CPU — Kokoro es lo suficientemente pequeño como para ejecutarse en CPU; útil para cargas de trabajo sensibles al costo o cuando no hay GPUs disponibles

  • Streaming — el generador produce fragmentos de audio a medida que se generan, lo que permite la reproducción en tiempo real en aplicaciones web

  • Combinar con WhisperX — usa WhisperX para transcripción y Kokoro para re-síntesis en pipelines de voz

  • Docker — usar pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime y añade apt-get install -y espeak-ng a tu inicio

  • Consistencia de voz — mantén un ID de voz por proyecto para una experiencia de narrador consistente

  • Eficiencia de costes — a $0.15/día en una RTX 3060, Kokoro es una de las soluciones TTS más baratas para alojar uno mismo

Solución de problemas

Problema
Solución

espeak-ng no encontrado

Ejecuta apt-get install -y espeak-ng (dependencia del sistema requerida)

ModuleNotFoundError: kokoro

Instalar con pip install kokoro>=0.9.4 soundfile

El audio suena robótico

Prueba una voz diferente (por ejemplo, af_heart tiende a sonar más natural)

Japonés/Chino no funciona

Instala los extras de idioma: pip install misaki[ja] o misaki[zh]

Agotamiento de memoria en CPU

Reduce la longitud del texto por llamada; Kokoro transmite fragmentos para que la memoria se mantenga acotada

Primera ejecución lenta

Descarga de pesos del modelo en el primer uso (~200 MB); las ejecuciones posteriores son instantáneas

Última actualización

¿Te fue útil?