ChatTTS — разговорный синтез речи

Запускайте разговорный синтез текста в речь ChatTTS с тонкой контролируемой просодией на GPU Clore.ai.

ChatTTS — это генеративная речевая модель на 300 млн параметров, оптимизированная для диалоговых сценариев, таких как ассистенты на базе LLM, чат-боты и интерактивные голосовые приложения. Она воспроизводит естественно звучащую речь с реалистичными паузами, смехом, заполняющими словами и интонацией — характеристиками, которые большинству систем TTS трудно воспроизвести. Модель поддерживает английский и китайский языки и генерирует аудио с частотой 24 кГц.

GitHub: 2noise/ChatTTSarrow-up-right (30K+ звезд) Лицензия: AGPLv3+ (код), CC BY-NC 4.0 (веса модели — некоммерческое использование)

Ключевые особенности

  • Разговорная просодия — естественные паузы, заполняющие слова и интонация, настроенные для диалога

  • Метки тонкого управления[oral_0-9], [laugh_0-2], [break_0-7], [uv_break], [lbreak]

  • Многоабонентность — выбор случайных голосов или повторное использование встраиваний говорящего для согласованности

  • Температура / top-P / top-K — управление разнообразием генерации

  • Пакетное инференсирование — синтез нескольких текстов в одном вызове

  • Легковесность — ~300M параметров, работает на 4 ГБ видеопамяти

Требования

Компонент
Минимум
Рекомендуется

GPU

RTX 3060 (4 ГБ свободно)

RTX 3090 / RTX 4090

VRAM

4 ГБ

8 ГБ+

ОЗУ

8 ГБ

16 ГБ

Диск

5 ГБ

10 ГБ

Python

3.9+

3.11

CUDA

11.8+

12.1+

Рекомендация Clore.ai: RTX 3060 ($0.15–0.30/день) комфортно обрабатывает ChatTTS. Для массового производства или меньшей задержки выберите RTX 3090 ($0.30–1.00/день).

Установка

Быстрый старт

Примеры использования

Согласованный голос говорящего

Выберите случайное встраивание говорящего и повторно используйте его для нескольких генераций для согласованного голоса:

Метки управления на уровне слов

Вставляйте управляющие метки прямо в текст для точной просодии:

Пакетная обработка через WebUI

ChatTTS поставляется с веб-интерфейсом Gradio для интерактивного использования:

Откройте http_pub URL из панели заказов Clore.ai, чтобы получить доступ к интерфейсу.

Советы для пользователей Clore.ai

  • Используйте compile=True после первоначального тестирования — компиляция PyTorch добавляет время запуска, но значительно ускоряет повторные инференсы

  • Проброс портов — откройте порт 7860/http при развертывании с WebUI

  • Docker-образ — используйте pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime в качестве основы

  • Сохранение говорящего — сохраните rand_spk строки в файл, чтобы вы могли повторно использовать голоса между сессиями без повторной выборки

  • Группируйте запросыchat.infer() принимает список текстов и обрабатывает их вместе, что эффективнее, чем по одному вызову

  • Некоммерческая лицензия — веса модели распространяются по CC BY-NC 4.0; проверьте требования лицензирования для вашего случая использования

Устранение неполадок

Проблема
Решение

CUDA — недостаточно памяти

Уменьшите размер батча или используйте GPU с ≥ 6 ГБ видеопамяти

Модель медленно скачивается

Предварительно скачайте с HuggingFace: huggingface-cli download 2Noise/ChatTTS

Аудио содержит статику/шум

Это сделано намеренно в открытой модели (мера против злоупотреблений); используйте compile=True для более чистого вывода

torchaudio.save ошибка размерности

Убедитесь, что тензор 2D: audio.unsqueeze(0) при необходимости

Искажённый китайский вывод

Убедитесь, что входной текст закодирован в UTF-8; установите WeTextProcessing для лучшей нормализации

Медленный первый инференс

Нормально — компиляция модели и загрузка весов происходят при первом вызове; последующие вызовы быстрее

Последнее обновление

Это было полезно?