Dia TTS (Nari Labs)

Генерируйте многоголосный диалог с эмоциями с помощью Dia TTS от Nari Labs

Dia от Nari Labs — это продвинутая модель преобразования текста в речь, которая специализируется на реалистичных многоголосых диалогах. В отличие от традиционного TTS, который обрабатывает одного говорящего за раз, Dia генерирует естественные разговоры между несколькими говорящими с эмоциями, смехом, колебаниями и другими невербальными сигналами. При 1,6 миллиардах параметров она работает на любой видеокарте с 8 ГБ и более.

Ключевые особенности

  • Многоголосые диалоги: Генерирует разговоры между 2 и более говорящими за один проход

  • Невербальные сигналы: Смех (смеётся), колебания (вздыхает), паузы — автоматически встраиваются

  • Эмоциональная речь: Естественная интонация без явных тегов эмоций

  • 1,6B параметров: Помещается на RTX 3070/3080 (8–10 ГБ видеопамяти)

  • Лицензия Apache 2.0: Полное коммерческое использование

  • Интеграция с HuggingFace: Работает с библиотекой Transformers

Требования

Компонент
Минимум
Рекомендуется

GPU

RTX 3070 (8GB)

RTX 3080 (10GB)

VRAM

8GB

10GB+

ОЗУ

16GB

32GB

Диск

10GB

15GB

Python

3.9+

3.11

Рекомендуемый GPU на Clore.ai: RTX 3080 10GB (~$0.2–0.5/день)

Установка

Быстрый старт

Базовый многоголосый диалог

С эмоциями и невербальными сигналами

Один говорящий

Веб-интерфейс Gradio

Сценарии использования

  • Генерация подкастов: Создавайте разговорные подкасты по сценариям

  • Диалоги для аудиокниг: Генерируйте диалоги персонажей с различными голосами

  • Диалоги для игр: Разговоры NPC с естественными речевыми паттернами

  • Данные для обучения: Генерируйте разнообразные речевые датасеты для обучения ASR

  • Голоса для чатботов: Многотуровые диалоги с эмоциональными ответами

Советы для пользователей Clore.ai

  • RTX 3080 — идеально: 10 ГБ видеопамяти легко справляются с Dia примерно за ~$0.2–0.5/день

  • Пакетная генерация: Обрабатывайте несколько диалогов в цикле, чтобы максимально использовать время аренды

  • Сохраняйте модели на постоянном хранилище: Если у вашего экземпляра Clore есть постоянный диск, кешируйте модель, чтобы избежать повторной загрузки

  • Температура 0.7–0.9: Ниже = более последовательный, выше = более выразительный/разнообразный

  • Только английский: В настоящее время Dia ориентирована на английский — для многоязычности см. руководство Qwen3-TTS

Устранение неполадок

Проблема
Решение

CUDA — недостаточно памяти

Используйте model.to("cuda", torch_dtype=torch.float16) для половинной точности

Голоса говорящих похожи

Добавьте больше текста/контекста для каждого говорящего; попробуйте увеличить температуру

Невербальные сигналы игнорируются

Убедитесь в правильном формате: (смеётся), (вздыхает) в скобках

Низкое качество аудио

Увеличьте num_steps параметр, если он доступен; убедитесь в частоте дискретизации 24 кГц

Дополнительное чтение

Последнее обновление

Это было полезно?