ChatTTS — разговорный синтез речи
Запускайте разговорный синтез текста в речь ChatTTS с тонкой контролируемой просодией на GPU Clore.ai.
ChatTTS — это генеративная речевая модель на 300 млн параметров, оптимизированная для диалоговых сценариев, таких как ассистенты на базе LLM, чат-боты и интерактивные голосовые приложения. Она воспроизводит естественно звучащую речь с реалистичными паузами, смехом, заполняющими словами и интонацией — характеристиками, которые большинству систем TTS трудно воспроизвести. Модель поддерживает английский и китайский языки и генерирует аудио с частотой 24 кГц.
GitHub: 2noise/ChatTTS (30K+ звезд) Лицензия: AGPLv3+ (код), CC BY-NC 4.0 (веса модели — некоммерческое использование)
Ключевые особенности
Разговорная просодия — естественные паузы, заполняющие слова и интонация, настроенные для диалога
Метки тонкого управления —
[oral_0-9],[laugh_0-2],[break_0-7],[uv_break],[lbreak]Многоабонентность — выбор случайных голосов или повторное использование встраиваний говорящего для согласованности
Температура / top-P / top-K — управление разнообразием генерации
Пакетное инференсирование — синтез нескольких текстов в одном вызове
Легковесность — ~300M параметров, работает на 4 ГБ видеопамяти
Требования
GPU
RTX 3060 (4 ГБ свободно)
RTX 3090 / RTX 4090
VRAM
4 ГБ
8 ГБ+
ОЗУ
8 ГБ
16 ГБ
Диск
5 ГБ
10 ГБ
Python
3.9+
3.11
CUDA
11.8+
12.1+
Рекомендация Clore.ai: RTX 3060 ($0.15–0.30/день) комфортно обрабатывает ChatTTS. Для массового производства или меньшей задержки выберите RTX 3090 ($0.30–1.00/день).
Установка
Быстрый старт
Примеры использования
Согласованный голос говорящего
Выберите случайное встраивание говорящего и повторно используйте его для нескольких генераций для согласованного голоса:
Метки управления на уровне слов
Вставляйте управляющие метки прямо в текст для точной просодии:
Пакетная обработка через WebUI
ChatTTS поставляется с веб-интерфейсом Gradio для интерактивного использования:
Откройте http_pub URL из панели заказов Clore.ai, чтобы получить доступ к интерфейсу.
Советы для пользователей Clore.ai
Используйте
compile=Trueпосле первоначального тестирования — компиляция PyTorch добавляет время запуска, но значительно ускоряет повторные инференсыПроброс портов — откройте порт
7860/httpпри развертывании с WebUIDocker-образ — используйте
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtimeв качестве основыСохранение говорящего — сохраните
rand_spkстроки в файл, чтобы вы могли повторно использовать голоса между сессиями без повторной выборкиГруппируйте запросы —
chat.infer()принимает список текстов и обрабатывает их вместе, что эффективнее, чем по одному вызовуНекоммерческая лицензия — веса модели распространяются по CC BY-NC 4.0; проверьте требования лицензирования для вашего случая использования
Устранение неполадок
CUDA — недостаточно памяти
Уменьшите размер батча или используйте GPU с ≥ 6 ГБ видеопамяти
Модель медленно скачивается
Предварительно скачайте с HuggingFace: huggingface-cli download 2Noise/ChatTTS
Аудио содержит статику/шум
Это сделано намеренно в открытой модели (мера против злоупотреблений); используйте compile=True для более чистого вывода
torchaudio.save ошибка размерности
Убедитесь, что тензор 2D: audio.unsqueeze(0) при необходимости
Искажённый китайский вывод
Убедитесь, что входной текст закодирован в UTF-8; установите WeTextProcessing для лучшей нормализации
Медленный первый инференс
Нормально — компиляция модели и загрузка весов происходят при первом вызове; последующие вызовы быстрее
Последнее обновление
Это было полезно?