Dia TTS (Nari Labs)

Genera diálogo multihablante con emoción usando Dia TTS de Nari Labs

Dia de Nari Labs es un avanzado modelo de texto a voz que se especializa en diálogo multivocal realista. A diferencia del TTS tradicional que maneja un solo hablante a la vez, Dia genera conversaciones naturales entre múltiples hablantes con emoción, risas, vacilaciones y otras señales no verbales. Con 1.6B de parámetros, funciona en cualquier GPU de 8GB+.

Características clave

  • Diálogo multivocal: Genera conversaciones entre 2+ hablantes en una sola pasada

  • Señales no verbales: Risa (se ríe), vacilación (suspira), pausas — incrustadas automáticamente

  • Discurso emocional: Entonación natural sin etiquetas explícitas de emoción

  • 1.6B de parámetros: Cabe en RTX 3070/3080 (8-10GB VRAM)

  • Licencia Apache 2.0: Uso comercial completo

  • Integración con HuggingFace: Funciona con la biblioteca Transformers

Requisitos

Componente
Mínimo
Recomendado

GPU

RTX 3070 (8GB)

RTX 3080 (10GB)

VRAM

8GB

10GB+

RAM

16GB

32GB

Disco

10GB

15GB

Python

3.9+

3.11

GPU recomendada de Clore.ai: RTX 3080 10GB (~$0.2–0.5/día)

Instalación

Inicio rápido

Diálogo multivocal básico

Con emoción y señales no verbales

Hablante único

Interfaz web Gradio

Casos de uso

  • Generación de podcast: Crear podcasts conversacionales a partir de guiones

  • Diálogos de audiolibros: Generar conversaciones entre personajes con voces distintivas

  • Diálogo para juegos: Conversaciones de NPC con patrones de habla naturales

  • Datos de entrenamiento: Generar conjuntos de datos de habla diversos para entrenamiento de ASR

  • Voces para chatbots: Diálogo de múltiples turnos con respuestas emocionales

Consejos para usuarios de Clore.ai

  • RTX 3080 es ideal: 10GB de VRAM maneja Dia fácilmente a ~ $0.2–0.5/día

  • Generación por lotes: Procesa múltiples diálogos en un bucle para maximizar tu tiempo de alquiler

  • Guardar modelos en almacenamiento persistente: Si tu instancia Clore tiene disco persistente, cachea el modelo para evitar descargarlo de nuevo

  • Temperatura 0.7–0.9: Menor = más consistente, mayor = más expresivo/variado

  • Solo inglés: Dia actualmente se enfoca en inglés — para multilingüe, consulta la guía de Qwen3-TTS

Solución de problemas

Problema
Solución

CUDA fuera de memoria

Usa model.to("cuda", torch_dtype=torch.float16) para media precisión

Los hablantes suenan similar

Agrega más texto/contexto por hablante; prueba una temperatura más alta

Se ignoran las señales no verbales

Asegúrate del formato correcto: (se ríe), (suspira) entre paréntesis

Calidad de audio baja

Aumente num_steps parámetro si está disponible; asegura tasa de muestreo de 24kHz

Lecturas adicionales

Última actualización

¿Te fue útil?