MeloTTS

Ejecuta MeloTTS, TTS multilingüe de alta calidad con inferencia rápida en las GPU de Clore.ai

MeloTTS es una biblioteca de texto a voz (TTS) multilingüe y de alta calidad desarrollada por MyShell AI. Ofrece síntesis de voz rápida y con sonido natural en múltiples idiomas y acentos del inglés, diseñada tanto para investigación como para despliegue en producción. MeloTTS está optimizado para la velocidad: puede generar voz significativamente más rápido que en tiempo real incluso en CPU, manteniendo una alta calidad de audio adecuada para uso comercial.

MeloTTS actualmente soporta:

  • Inglés (Americano, Británico, Indio, Australiano, Predeterminado)

  • Chino (simplificado y chino-inglés mixto)

  • Japonés

  • Coreano

  • Español

  • Francés

Aspectos destacados:

  • Inferencia rápida — más rápido que en tiempo real en CPU, extremadamente rápido en GPU

  • 🌍 Multilingüe — 6 idiomas con variantes de acento para inglés

  • 🐳 Listo para Docker — imagen oficial de Docker disponible

  • 🔌 API REST — API HTTP para integración en cualquier aplicación

  • 📱 Calidad de nivel de producción — usado en los productos de consumo de MyShell

circle-check

Requisitos del servidor

Parámetro
Mínimo
Recomendado

GPU

NVIDIA GTX 1080 (8 GB)

NVIDIA RTX 3090 (24 GB)

VRAM

4 GB

8–16 GB

RAM

8 GB

16 GB

CPU

4 núcleos

8 núcleos

Disco

10 GB

20 GB

SO

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.7+ (opcional)

12.1+

Python

3.8+

3.10

Puertos

22, 8888

22, 8888

circle-info

MeloTTS es excepcionalmente eficiente: funciona bien en CPU para solicitudes individuales y se beneficia enormemente de la GPU para procesamiento por lotes. Incluso una GPU económica duplica el rendimiento de forma drástica.


Despliegue rápido en CLORE.AI

circle-exclamation

1. Encuentra un servidor adecuado

Ve a CLORE.AI Marketplacearrow-up-right y filtra por:

  • VRAM: ≥ 4 GB (o solo CPU para bajo volumen)

  • GPU: Cualquier GPU NVIDIA (GTX 1080+, serie RTX, A100)

  • Disco: ≥ 10 GB

2. Configura tu despliegue

Imagen Docker:

Mapeo de puertos:

Variables de entorno:

Comando de inicio (ejecutar después de hacer SSH al servidor):

3. Accede a la API

Prueba con:


Configuración paso a paso

Paso 1: Conéctate por SSH a tu servidor

Paso 2: Construir y ejecutar el contenedor

Dado que MeloTTS no tiene una imagen preconstruida en Docker Hub, usa una base NVIDIA CUDA e instala MeloTTS desde la fuente:

Alternativamente, construye una imagen Docker personalizada desde la fuente:

Paso 3: Verificar que el servicio esté en ejecución

Paso 4: Alternativa — interfaz Jupyter Notebook

Acceder en: http://<ip-del-servidor>:8888

Paso 5: Instalar desde pip (sin Docker)


Ejemplos de uso

Ejemplo 1: TTS básico en inglés (Python)


Ejemplo 2: TTS multilingüe


Ejemplo 3: Uso de la API REST


Ejemplo 4: Procesamiento por lotes de alta velocidad


Ejemplo 5: TTS mixto chino-inglés


Configuración

Configuración con Docker Compose

Dado que MeloTTS no tiene una imagen oficial en Docker Hub, usa la imagen base NVIDIA CUDA e instala MeloTTS desde la fuente al iniciar:

Opciones de configuración de la API

Parámetro
Por defecto
Descripción

--host

127.0.0.1

Dirección de enlace (usar 0.0.0.0 para público)

--port

8888

Puerto del servidor API

--workers

1

Número de procesos worker

--device

auto

cuda, cpu, o auto

Idiomas y hablantes soportados

Idioma
Código
IDs de hablantes

Inglés

EN

EN-Default, EN-US, EN-GB, EN-India, EN-Australia, EN-Brazil

Chino

ZH

ZH

Japonés

JP

JP

Coreano

KR

KR

Español

SP

SP

Francés

FR

FR


Consejos de rendimiento

1. Comparativa GPU vs CPU

Rendimiento de MeloTTS (RTF = Factor de Tiempo Real, más bajo es mejor):

Dispositivo
RTF
Notas

CPU (8 núcleos)

~0.3x

Rápido, ideal para baja carga

RTX 3080

~0.05x

20× más rápido que en tiempo real

RTX 4090

~0.02x

50× más rápido que en tiempo real

A100

~0.01x

100× más rápido que en tiempo real

2. Optimizar para rendimiento (throughput)

3. Calentar el modelo (pre-warm)

4. Ajustar calidad de audio vs velocidad

5. Eficiencia de memoria


Solución de problemas

Problema: espeak-ng no encontrado

Problema: faltan datos de NLTK

Problema: El puerto 8888 entra en conflicto con Jupyter

MeloTTS usa el puerto 8888 por defecto, que choca con Jupyter Notebook. Soluciones:

Problema: El texto chino no se muestra correctamente

Problema: Falló la descarga de la imagen Docker

Problema: Inferencia lenta en GPU


Recomendaciones de GPU en Clore.ai

MeloTTS es ligero: funciona bien en CPU para bajo volumen y escala linealmente con la potencia de cómputo de la GPU. No necesitas hardware caro.

GPU
VRAM
Precio en Clore.ai
RTF (Factor de Tiempo Real)
Capacidad

Solo CPU

~$0.02/hr

~0.3×

~3 req/min

RTX 3090

24 GB

~$0.12/h

~0.02× (50× tiempo real)

~100 req/min

RTX 4090

24 GB

~$0.70/h

~0.01× (100× tiempo real)

~200 req/min

A100 40GB

40 GB

~$1.20/h

~0.005× (200× tiempo real)

~400 req/min

circle-info

Mejor relación calidad/precio para cargas TTS: RTX 3090 a $0.12/hora ofrece 50× la velocidad TTS en tiempo real. Para una API de producción que atiende a cientos de usuarios, esto es más que suficiente. Instancias solo CPU ($0.02/hora) funcionan bien para desarrollo y despliegues de bajo tráfico.

Recomendación para producción: Para una API TTS multilingüe que sirva de 10 a 50 usuarios concurrentes, la RTX 3090 es el punto óptimo. Escala horizontalmente (múltiples instancias) en lugar de actualizar a una A100 costosa: MeloTTS no se beneficia proporcionalmente de GPUs de gama más alta.


Enlaces

Última actualización

¿Te fue útil?