Voxtral TTS

El modelo de texto a voz de pesos abiertos de Mistral: 4B parámetros, 9 idiomas, clonación de voz zero-shot, solo 3 GB de VRAM.

Especificación
Valor

Desarrollador

Mistral AI

Parámetros

4 mil millones

Arquitectura

TTS solo decodificador

Idiomas

9 (inglés, francés, alemán, español, hindi, árabe, portugués, italiano, japonés)

Licencia

Apache 2.0 (pesos abiertos)

VRAM

~3 GB (FP16)

Latencia

70 ms para una salida de 10 segundos

Clonación de voz

Zero-shot a partir de una referencia de 3 segundos

Lanzamiento

26 de marzo de 2026

¿Por qué Voxtral TTS?

Voxtral TTS es la respuesta de pesos abiertos de Mistral a ElevenLabs y OpenAI TTS. Ventajas clave para los usuarios de Clore.ai:

  • Funciona en cualquier GPU — solo 3 GB de VRAM significa que incluso una RTX 3060 funciona perfectamente

  • Sin tarifas de API — autoalojado = síntesis ilimitada con costo marginal cero

  • Privacidad de datos — el audio nunca sale de tu máquina

  • Clonación zero-shot — clona cualquier voz a partir de 3 segundos de audio de referencia

  • 9 idiomas de forma nativa — incluyendo hindi y árabe, que a menudo faltan en la competencia

  • Velocidad en tiempo real — RTF 0.1–0.2× en RTX 4070+ (clip de 10 segundos en 1–2 segundos)

Requisitos de GPU en Clore.ai

GPU
VRAM
Rendimiento
Precio en Clore.ai

RTX 3060 12GB

12 GB

✅ Bueno — 3–4× en tiempo real

desde $0.10/día

RTX 3090 24GB

24 GB

✅ Excelente — procesamiento por lotes

desde $0.30/día

RTX 4070 12GB

12 GB

✅ Excelente — 5–10× en tiempo real

desde $0.25/día

RTX 4090 24GB

24 GB

✅ Excesivo — latencia inferior a un segundo

desde $0.50/día

Recomendación: Una RTX 3060 12GB ($0.10/día en Clore.ai) es el punto óptimo para la mayoría de los casos de uso. Voxtral solo necesita 3 GB de VRAM, así que puedes ejecutarlo junto con otros modelos.

Inicio rápido en Clore.ai

Paso 1: Alquila un servidor GPU

  1. Filtra cualquier GPU con 8+ GB de VRAM

  2. Selecciona un despliegue de Docker despliegue

  3. Usa la imagen: pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel

Paso 2: Instala las dependencias

Paso 3: Texto a voz básico

Paso 4: Clonación de voz zero-shot

Paso 5: Síntesis multilingüe

Servidor API de producción

Despliega Voxtral como una API REST para integrarlo en tus aplicaciones:

Despliegue con Docker

Voxtral vs otros modelos TTS

Característica
Voxtral TTS
ElevenLabs
Qwen3-TTS
Kokoro TTS
Fish Speech

Pesos abiertos

✅ Apache 2.0

❌ Solo API

VRAM

3 GB

N/D (nube)

8 GB

2 GB

4 GB

Idiomas

9

30+

50+

5

8

Clonación de voz

referencia de 3 s

referencia de 1 s

referencia de 5 s

referencia de 10 s

Latencia

70 ms

~200 ms

~150 ms

50 ms

100 ms

Calidad

⭐⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

Autoalojado

Procesamiento por lotes para proyectos grandes

Modo streaming para aplicaciones en tiempo real

Solución de problemas

Problema
Solución

OOM en GPU pequeña

Usa model.half() para FP16 (reduce la VRAM a la mitad hasta ~1.5 GB)

Primera inferencia lenta

Normal — el modelo compila los kernels CUDA en la primera ejecución (~30 s)

Mala calidad para el idioma X

Asegúrate de usar el parámetro language correcto; algunos idiomas necesitan audio de referencia más largo

Artefactos de audio

Aumenta reference_audio la longitud a 5–10 s para una mejor clonación de voz

Falla la descarga del modelo

Configura HF_TOKEN como variable de entorno para acceso a modelos restringidos

Análisis de costos: Voxtral en Clore.ai vs TTS en la nube

Servicio
1M caracteres/mes
Notas

ElevenLabs Pro

$99/mes

500K caracteres incluidos, tarifas por excedente

OpenAI TTS

$15/mes

$15 por 1M de caracteres

Google Cloud TTS

$16/mes

Voces estándar

Voxtral en Clore.ai

$3–15/mes

RTX 3060 @ $0.10–0.50/día, caracteres ilimitados

En resumen: Autoalojar Voxtral en Clore.ai es 6–30× más barato que las API TTS en la nube, con cero límites de caracteres y privacidad total de los datos.

Lecturas adicionales


Última actualización: 30 de marzo de 2026

Última actualización

¿Te fue útil?