Chatterbox — клонирование голоса

Запускайте Chatterbox TTS от Resemble AI для zero-shot клонирования голоса и многоязычного синтеза речи на GPU Clore.ai.

Chatterbox — это семейство современных open-source моделей синтеза речи от Resemble AIarrow-up-right. Она выполняет нулевое клонирование голоса по короткому эталонному фрагменту (~10 секунд), поддерживает паралингвистические теги, такие как [laugh] и [cough], и предлагает мультилингвальный вариант, охватывающий более 23 языков. Доступны три варианта модели: Turbo (350M, низкая задержка), Original (500M, креативные настройки) и Multilingual (500M, 23+ языков).

GitHub: resemble-ai/chatterboxarrow-up-right PyPI: chatterbox-ttsarrow-up-right Лицензия: MIT

Ключевые особенности

  • Клонирование голоса в нулевой настройке — клонирует любой голос по ~10 секундам эталонного аудио

  • Паралингвистические теги (Turbo) — [laugh], [cough], [chuckle], [sigh] для реалистичной речи

  • 23+ языков (Multilingual) — арабский, китайский, французский, немецкий, японский, корейский, русский, испанский и другие

  • Настройка CFG и преувеличения (Original) — креативный контроль выразительности

  • Три размера моделей — Turbo (350M), Original (500M), Multilingual (500M)

  • Лицензия MIT — полностью открыто для коммерческого использования

Требования

Компонент
Минимум
Рекомендуется

GPU

RTX 3060 12 ГБ

RTX 3090 / RTX 4090

VRAM

6 GB

10 ГБ+

ОЗУ

8 ГБ

16 ГБ

Диск

5 ГБ

15 ГБ

Python

3.10+

3.11

CUDA

11.8+

12.1+

Рекомендация Clore.ai: RTX 3090 ($0.30–1.00/день) для комфортного запаса VRAM. RTX 3060 подходит для модели Turbo. Для Multilingual с длинными текстами рассмотрите RTX 4090 ($0.50–2.00/день).

Установка

Быстрый старт

Модель Turbo (наименьшая задержка)

Модель Original (английский, креативный контроль)

Примеры использования

Мультилингвальное клонирование голоса

Паралингвистические теги (Turbo)

Скрипт пакетной обработки

Советы для пользователей Clore.ai

  • Выбор модели — используйте Turbo для агентов с низкой задержкой, Original для креативной работы на английском, Multilingual для контента на других языках

  • Качество эталонного аудио — используйте чистый, безшумный клип длительностью 10–30 секунд для лучшего результата клонирования голоса

  • Настройка Docker — базовое изображение pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, открыть порт 7860/http для Gradio

  • Управление памятью — вызовите torch.cuda.empty_cache() между крупными пакетами для освобождения VRAM

  • Поддерживаемые языки — ar, da, de, el, en, es, fi, fr, he, hi, it, ja, ko, ms, nl, no, pl, pt, ru, sv, sw, tr, zh

  • HuggingFace Space — попробуйте перед арендой на huggingface.co/spaces/ResembleAI/Chatterboxarrow-up-right

Устранение неполадок

Проблема
Решение

CUDA — недостаточно памяти

Используйте Turbo (350M) вместо Original/Multilingual (500M) или арендуйте более мощный GPU

Клонированный голос не совпадает

Используйте более длинный (15–30 с), чистый эталонный клип с минимальным фоновым шумом

numpy конфликт версий

Запустите pip install numpy==1.26.4 --force-reinstall

Медленная загрузка модели

Модели загружаются с HuggingFace при первом запуске (~2 ГБ); предварительно скачайте с помощью huggingface-cli

В аудио присутствуют артефакты

Уменьшите длину текста на одну генерацию; очень длинные тексты могут ухудшать качество

ModuleNotFoundError

Убедитесь, что pip install chatterbox-tts завершено без ошибок; проверьте совместимость с Python 3.11

Последнее обновление

Это было полезно?