Comparación de motores TTS

Compara los principales motores de texto a voz de código abierto para desplegar en servidores GPU de Clore.ai.

circle-info

Texto a voz (TTS) convierte texto escrito en audio de sonido natural. Esta guía compara cinco motores TTS de código abierto líderes: XTTS v2, Bark, Kokoro, Fish Speech y MeloTTS — cubriendo calidad, velocidad, soporte de idiomas y capacidades de clonación de voz.


Matriz de decisión rápida

XTTS v2
Bark
Kokoro
Fish Speech
MeloTTS

Desarrollador

Coqui AI

Suno AI

Hexgrad

Fish Audio

MyShell AI

Calidad

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐⭐

Velocidad

Medio

Lento

Rápido

Rápido

El más rápido

Clonación de voz

✅ (clip de 3 s)

✅ (preajustes de voz)

✅ (limitado)

✅ (clip de 10 s)

Idiomas

17

10+

Inglés

8+

8

VRAM mínima

4GB

8GB

CPU ok

4GB

CPU ok

Licencia

CPML (no comercial)

MIT

Apache 2.0

CC BY-NC-SA

MIT

Estrellas en GitHub

35K+ (Coqui TTS)

38K+

12K+

14K+

15K+


Resumen

XTTS v2

XTTS v2 de Coqui es el estándar de oro para TTS de clonación de voz de código abierto. Puede clonar cualquier voz a partir de un clip de audio de 3 segundos con fidelidad excepcional.

Filosofía: Máxima expresividad y calidad de clonación de voz.

Bark

Bark de Suno es un modelo TTS basado en transformadores que genera habla muy expresiva, incluidos sonidos no verbales: risas, suspiros, música y efectos sonoros.

Filosofía: No solo habla — generación de audio completa.

Kokoro

Kokoro es un modelo TTS ligero y rápido optimizado para inglés. A pesar de su pequeño tamaño (~82M parámetros), ofrece una calidad sorprendentemente alta.

Filosofía: Modelo pequeño, gran calidad, funciona en cualquier lugar.

Fish Speech

Fish Speech de Fish Audio es un TTS de nivel de producción con clonación de voz excepcional a partir de clips cortos. Utiliza una novedosa arquitectura de códec + modelo de lenguaje.

Filosofía: Calidad de producción, inferencia rápida, clonación excelente.

MeloTTS

MeloTTS de MyShell es un TTS ultra-rápido y multi-acento optimizado para aplicaciones en tiempo real. Funciona eficientemente en CPU y admite múltiples acentos ingleses y lenguas asiáticas.

Filosofía: Velocidad en tiempo real a cualquier escala.


Comparación de calidad

Puntajes de naturalidad (MOS — Mean Opinion Score, 1-5)

circle-info

Los puntajes MOS son valores aproximados basados en artículos publicados y evaluaciones de la comunidad. La calidad real depende en gran medida del contenido del texto y la configuración de la voz.

Modelo
MOS en inglés
MOS multilingüe
Expresividad

XTTS v2

4.3

4.1

⭐⭐⭐⭐⭐

Bark

3.9

3.7

⭐⭐⭐⭐⭐ (único)

Kokoro

4.2

N/D (solo EN)

⭐⭐⭐

Fish Speech

4.4

4.2

⭐⭐⭐⭐

MeloTTS

3.8

3.6

⭐⭐

Qué hace mejor cada modelo

Modelo
Característica de calidad destacada

XTTS v2

Clonación de voz casi perfecta, rango emocional

Bark

Sonidos no verbales, risas, música, efectos

Kokoro

Mejor relación calidad-tamaño, cadencia natural

Fish Speech

Mejor naturalidad general + precisión de clonación

MeloTTS

Salida consistente y limpia para textos largos


Benchmarks de velocidad

Caracteres por segundo (CPU vs GPU)

Prueba: "The quick brown fox jumps over the lazy dog. How are you today?" (60 chars)

Modelo
Velocidad en CPU
Velocidad en GPU (RTX 3080)
Factor en tiempo real

XTTS v2

~15 caracteres/s

~150 caracteres/s

0.3× (GPU)

Bark

~5 caracteres/s

~40 caracteres/s

0.1× (GPU)

Kokoro

~200 caracteres/s

~800 caracteres/s

5× (GPU)

Fish Speech

~80 caracteres/s

~500 caracteres/s

3× (GPU)

MeloTTS

~500 caracteres/s

~2000 caracteres/s

12× (GPU)

Factor en tiempo real > 1.0 significa más rápido que la velocidad de reproducción

Tiempo para generar 1 minuto de audio

Modelo
CPU
RTX 3080
A100

XTTS v2

~8 min

~30 s

~10 s

Bark

~20 min

~3 min

~45 s

Kokoro

~20 s

~5 s

~2 s

Fish Speech

~45 s

~8 s

~3 s

MeloTTS

~8 s

~2 s

<1 s

circle-check

Soporte de idiomas

Idiomas compatibles

Modelo
Idiomas
Notable

XTTS v2

17

EN, ES, FR, DE, IT, PT, PL, TR, RU, NL, CS, AR, ZH, JA, HU, KO, HI

Bark

10+

EN, ZH, FR, DE, HI, IT, JA, KO, PL, PT, RU, ES, TR

Kokoro

2

Inglés (US/UK), japonés (limitado)

Fish Speech

8

EN, ZH, JA, KO, FR, DE, AR, ES

MeloTTS

8

EN (4 acentos), ES, FR, ZH, JA, KO

Notas sobre la calidad por idioma

Modelo
Inglés
Chino
Japonés
Europeo

XTTS v2

Excelente

Bueno

Bueno

Excelente

Bark

Bueno

Aceptable

Aceptable

Bueno

Kokoro

Excelente

Limitado

Fish Speech

Excelente

Mejor

Bueno

Bueno

MeloTTS

Bueno

Bueno

Bueno

Bueno

circle-info

Para TTS en chino: Fish Speech y MeloTTS son las mejores opciones de código abierto. Ambos manejan tonos y caracteres de manera natural.

Para aplicaciones multilingües: XTTS v2 admite la mayor cantidad de idiomas con calidad consistente en todos ellos.


Comparación de clonación de voz

Capacidades de clonación

Modelo
Duración de referencia
Calidad de clonación
Zero-Shot

XTTS v2

3 segundos

⭐⭐⭐⭐⭐

Bark

Solo preajustes de voz

⭐⭐⭐

Parcial

Kokoro

No soportado

Fish Speech

10 segundos

⭐⭐⭐⭐⭐

MeloTTS

No soportado

Clonación de voz XTTS v2

Clonación de voz Fish Speech

Preajustes de voz de Bark


XTTS v2: Análisis profundo

Arquitectura

  • VITS + GPT arquitectura híbrida

  • Entrenado con más de 16K horas en 17 idiomas

  • Mínimo de 3 segundos para clonación zero-shot

Instalación en Clore.ai

Despliegue con Docker

Debilidades: Licencia CPML (no comercial sin permiso), más lento que Kokoro/MeloTTS


Bark: Análisis profundo

Arquitectura

  • Transformador estilo GPT para generación de tokens de audio

  • Proceso en tres etapas: texto → semántico → tokens gruesos → finos

  • Genera tokens reales de códec de audio (EnCodec)

Qué hace único a Bark

Bark es el único TTS de código abierto que genera de forma nativa:

  • 🎵 Música de fondo dentro del discurso

  • 😂 Risas, suspiros, aclaramiento de garganta

  • 🎭 Múltiples hablantes en una generación

  • 🌍 Enunciados de idiomas mixtos

Lenguaje de marcado

Instalación

Debilidades: Lento (pipeline de 3 etapas), inconsistente entre ejecuciones, sin clonación de voz real


Kokoro: Análisis profundo

Arquitectura

  • 82M parámetros Modelo basado en StyleTTS2

  • Extremadamente pequeño pero sorprendentemente de alta calidad

  • Inferencia rápida en CPU y GPU

Voces disponibles

Soporte de streaming

Debilidades: Solo inglés (principalmente), sin clonación de voz, expresividad limitada


Fish Speech: Análisis profundo

Arquitectura

  • VQGAN + Modelo de lenguaje arquitectura

  • Entrenado con más de 700K horas de audio

  • Fuerte multilingüe con soporte para idiomas asiáticos

Instalación

API de Python

Clonación de voz

Debilidades: Licencia CC BY-NC-SA (no comercial), mayor VRAM para la mejor calidad


MeloTTS: Análisis profundo

Arquitectura

  • Basado en VITS2 arquitectura

  • Entrenamiento en inglés multi-acento

  • Extremadamente optimizado para velocidad de inferencia

Acentos e idiomas

Procesamiento por lotes (Muy rápido)

Debilidades: Sin clonación de voz, robótico a alta velocidad, expresividad limitada


Despliegue en Clore.ai

Servidor TTS todo en uno

Resumen de requisitos de VRAM

Modelo
CPU
GPU de 4 GB
GPU de 8 GB
GPU de 16 GB

XTTS v2

Lento

Bark

Muy lento

Kokoro

Rápido

Fish Speech

Medio

MeloTTS

Muy rápido


Ejemplos de integración

API compatible con OpenAI (para reemplazo directo)

Integración con LangChain


Cuándo usar cada uno

Guía de decisión

Por tipo de aplicación

Aplicación
Mejor opción
Por qué

Generación de audiolibros

XTTS v2

Voz natural y consistente

Chatbot en tiempo real

MeloTTS o Kokoro

Inferencia más rápida

Automatización de podcasts

XTTS v2 o Fish Speech

Mejor clonación

Personajes de juegos

Bark

Voces expresivas y variadas

Atención al cliente

MeloTTS

Escalable y rápido

Herramientas de accesibilidad

Kokoro

Ligero y gratuito

Doblaje de voz

Fish Speech

Mejor calidad de clonación

Narración de larga duración

XTTS v2

Calidad consistente


Resumen de licencias

circle-exclamation
Modelo
Licencia
¿Comercial?
Notas

XTTS v2

Coqui Public Model License

❌ Gratis

Requiere licencia para uso comercial

Bark

MIT

Gratis para todo uso

Kokoro

Apache 2.0

Gratis para todo uso

Fish Speech

CC BY-NC-SA 4.0

Solo no comercial

MeloTTS

MIT

Gratis para todo uso

Totalmente abierto para uso comercial: Bark, Kokoro, MeloTTS


Costo en Clore.ai


Enlaces útiles


Resumen

Modelo
Usar cuando

XTTS v2

Mejor clonación de voz (referencia 3 s), 17 idiomas, no comercial

Bark

Expresivo, risas/efectos, licencia MIT

Kokoro

Rápido, alta calidad en inglés, licencia Apache

Fish Speech

Mejor para CJK, clonación en producción, no comercial

MeloTTS

El más rápido, en tiempo real, inglés multiacento, licencia MIT

Para la mayoría de despliegues de Clore.ai en producción:

  • Aplicaciones de voz en tiempo real → MeloTTS o Kokoro (gratis, rápido, MIT)

  • Servicio de clonación de voz → XTTS v2 o Fish Speech (verificar licencias)

  • Narración expresiva → Bark o XTTS v2


Recomendaciones de GPU en Clore.ai

Caso de uso
GPU recomendada
Coste estimado en Clore.ai

Desarrollo/Pruebas

RTX 3090 (24GB)

~$0.12/gpu/hr

Producción

RTX 4090 (24GB)

~$0.70/gpu/hr

Gran escala

A100 80GB

~$1.20/gpu/hr

💡 Todos los ejemplos en esta guía pueden desplegarse en Clore.aiarrow-up-right servidores GPU. Navega las GPUs disponibles y alquila por hora — sin compromisos, acceso root completo.

Última actualización

¿Te fue útil?