Клонирование голоса Qwen3-TTS

Многоязычное клонирование голоса и TTS с Qwen3-TTS — 10+ языков, потоковая передача, управление эмоциями

Qwen3-TTS от Alibaba — современная модель синтеза речи, поддерживающая более 10 языков с клонированием голоса по всего 3 секундам аудио. Она поддерживает управление эмоциями на естественном языке ("говорить радостно", "шептать тихо"), стриминг с задержкой 97 мс и имеется в двух размерах модели (0,6B и 1,7B). Выпущена под лицензией Apache 2.0 и является одной из самых мощных открытых TTS-систем.

Ключевые особенности

  • более 10 языков: английский, китайский, японский, корейский, французский, немецкий, испанский и другие

  • Клонирование голоса за 3 секунды: Клонируйте любой голос по короткому аудиосэмплу

  • Естественное управление эмоциями: Управляйте стилем с помощью простых текстовых инструкций

  • Поддержка потоковой передачи: 97 мс до первого токена — отлично подходит для приложений в реальном времени

  • Два размера: 0,6B (4 ГБ VRAM) и 1,7B (8 ГБ VRAM)

  • Возможность дообучения: Базовые модели доступны для кастомного обучения

  • Лицензия Apache 2.0: Полное коммерческое использование

Варианты моделей

Модель
Параметры
VRAM
Качество
Скорость
Лучше всего для

Qwen3-TTS-0.6B-Instruct

0,6B

4 ГБ

Хорошо

Быстро

Реальное время, бюджетные GPU

Qwen3-TTS-1.7B-Instruct

1,7B

8GB

Лучшее

Средне

Качество для продакшена

Qwen3-TTS-0.6B-Base

0,6B

4 ГБ

Донастройка

Qwen3-TTS-1.7B-Base

1,7B

8GB

Донастройка

Требования

Компонент
0,6B
1,7B

GPU

RTX 3060 6GB

RTX 3080 10GB

VRAM

4 ГБ

8GB

ОЗУ

8GB

16GB

Диск

5 ГБ

10GB

Python

3.10+

3.10+

Рекомендуемый GPU на Clore.ai: RTX 3060 ($0.15–0.3/день) для 0.6B, RTX 3080 ($0.2–0.5/день) для 1.7B

Установка

Быстрый старт — клонирование голоса

Управление эмоциями

Многоязычная генерация

Сравнение с другими TTS-моделями

Функция
Qwen3-TTS
Zonos
Dia
Kokoro
XTTS

Языки

10+

1 (EN)

1 (EN)

1 (EN)

17

Клон голоса

3 сек

2-30 сек

Нет

Нет

6 сек

Потоковая передача (Streaming)

✅ (97мс)

Управление эмоциями

✅ Естественно

✅ Авто

Много-говорящий

Мин. VRAM

4 ГБ

8GB

8GB

2GB

6 ГБ

Лицензия

Apache 2.0

Apache 2.0

Apache 2.0

Apache 2.0

AGPL

Советы для пользователей Clore.ai

  • 0.6B на RTX 3060: Лучший бюджетный вариант за $0.15/день — достаточно хорош для большинства задач TTS

  • Пакетная обработка: Генерируйте все аудиоклипы в одной сессии, чтобы максимально эффективно использовать время аренды

  • Кешировать эталонное аудио: Храните ссылки на голоса на постоянном носителе

  • Стриминг для реального времени: Используйте API стриминга для приложений чат-ботов/ассистентов

  • Донастройка для кастомных голосов: Арендуйте RTX 4090 на несколько часов, чтобы дообучить базовую модель на ваших голосовых данных

Устранение неполадок

Проблема
Решение

Недостаточно памяти на 1.7B

Переключитесь на 0.6B или используйте torch_dtype=torch.float16

Клон голоса звучит неправильно

Используйте 5–10 секунд чистого аудио (без фонового шума)

Вывод на неправильном языке

Явно передайте параметр language

Медленная первая генерация

Норма — модель загружается при первом вызове. Последующие вызовы быстрые

Дополнительное чтение

Последнее обновление

Это было полезно?