Клонирование голоса Zonos TTS
Запускайте Zonos TTS от Zyphra для клонирования голоса с управлением эмоцией и тоном на GPU Clore.ai.
Zonos от Zyphra — это 0.4B-параметрическая модель текст-в-речь с открытыми весами, обученная на более чем 200 тыс. часов многоязычной речи. Она выполняет нулевое клонирование голоса по всего 2–30 секундам эталонного аудио и предоставляет тонкую настройку эмоций, скорости речи, вариации тона и качества аудио. Выходной звук — высококачественное аудио 44 кГц. Доступны два варианта модели: Transformer (лучшее качество) и Hybrid/Mamba (быстрее при инференсе).
GitHub: Zyphra/Zonos HuggingFace: Zyphra/Zonos-v0.1-transformer Лицензия: Apache 2.0
Ключевые особенности
Клонирование голоса по 2–30 секундам — тонкой дообучения не требуется
Выход 44 кГц высокого качества — студийное качество звука
Управление эмоциями — радость, печаль, гнев, страх, удивление, отвращение через 8D-вектор
Скорость речи и тон — независимый тонконастраиваемый контроль
Входные аудио-префиксы — позволяет имитировать шёпот и другие трудноклонируемые поведения
Мультиязычность — английский, японский, китайский, французский, немецкий
Две архитектуры — Transformer (качество) и Hybrid/Mamba (скорость, ~2× реального времени на RTX 4090)
Apache 2.0 — бесплатно для личного и коммерческого использования
Требования
GPU
RTX 3080 10 ГБ
RTX 4090 24 ГБ
VRAM
6 ГБ (Transformer)
10 ГБ+
ОЗУ
16 ГБ
32 ГБ
Диск
10 ГБ
20 ГБ
Python
3.10+
3.11
CUDA
11.8+
12.4
Система
espeak-ng
—
Рекомендация Clore.ai: RTX 3090 ($0.30–1.00/день) для комфортного запаса. RTX 4090 ($0.50–2.00/день) для модели Hybrid и максимально быстрого инференса.
Установка
Быстрый старт
Примеры использования
Управление эмоциями
Zonos принимает 8-мерный вектор эмоций: [радость, печаль, отвращение, страх, удивление, гнев, другое, нейтральный].
Управление скоростью речи и тоном
Веб-интерфейс Gradio
Открыть порт 7860/http в вашем заказе Clore.ai и открыть http_pub URL для доступа к интерфейсу.
Советы для пользователей Clore.ai
Выбор модели — Transformer для лучшего качества, Hybrid для примерно в 2× более быстрого инференса (требуется GPU серии RTX 3000+)
Эталонное аудио — 10–30 секунд чистой речи дают лучшие результаты; более короткие клипы (2–5 с) работают, но с меньшей точностью
Настройка Docker — используйте
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, добавьтеapt-get install -y espeak-ngв автозагрузкуПроброс портов — откройте
7860/httpдля интерфейса Gradio,8000/httpдля сервера APIКонтроль сидирования (seed) — установите
torch.manual_seed()перед генерацией для воспроизводимого результатаПараметр качества аудио — экспериментируйте с полем
audio_qualityв conditioning для более чистого вывода
Устранение неполадок
espeak-ng не найден
Запустите apt-get install -y espeak-ng (требуется для фонемизации)
CUDA — недостаточно памяти
Используйте модель Transformer (меньше, чем Hybrid); уменьшите длину текста на вызов
Hybrid-модель не запускается
Требуется GPU Ampere+ (серия RTX 3000 или новее) и pip install -e ".[compile]"
Клонированный голос звучит неправильно
Используйте более длинный эталонный фрагмент (15–30 с) с чёткой речью и минимальным фоновым шумом
Медленная генерация
Нормально для Transformer (~0.5× реального времени); Hybrid достигает ~2× реального времени на RTX 4090
ModuleNotFoundError: zonos
Убедитесь, что вы установили из исходников: cd Zonos && pip install -e .
Последнее обновление
Это было полезно?