Kokoro TTS
Запускайте Kokoro TTS — сверхлёгкую модель text-to-speech с 82M параметров на GPU Clore.ai.
Kokoro — это модель синтеза речи из текста с 82 миллионами параметров, которая значительно превосходит ожидания для своего класса. Несмотря на небольшой размер (меньше 2 ГБ видеопамяти), она воспроизводит удивительно естественную английскую речь и работает в реальном времени или быстрее даже на бюджетном оборудовании. С лицензией Apache 2.0, несколькими встроенными стилями голоса и поддержкой вывода на CPU, Kokoro идеально подходит для приложений в реальном времени, чат-ботов и развёртываний на периферии.
HuggingFace: hexgrad/Kokoro-82M PyPI: kokoro Лицензия: Apache 2.0
Ключевые особенности
82M параметров — одна из самых маленьких высококачественных моделей TTS
< 2 ГБ VRAM — работает практически на любой GPU и даже на CPU
Несколько стилей голоса — американский английский, британский английский; мужские и женские голоса
В реальном времени или быстрее — низкая задержка вывода, подходящая для стриминга
Потоковая генерация — выдаёт аудиочанки по мере их генерации
Поддержку нескольких языков — английский (основной), японский (
misaki[ja]), китайский (misaki[zh])Apache 2.0 — бесплатно для личного и коммерческого использования
Требования
GPU
Любая с 2 ГБ VRAM
RTX 3060
VRAM
2 GB
4 ГБ
ОЗУ
4 ГБ
8 ГБ
Диск
500 МБ
1 ГБ
Python
3.9+
3.11
Система
espeak-ng установлен
—
Рекомендация Clore.ai: RTX 3060 (~$0.15–0.30/день) более чем достаточна. Kokoro может даже запускаться на экземплярах только с CPU, обеспечивая чрезвычайно выгодный по стоимости TTS.
Установка
Быстрый старт
Примеры использования
Сравнение нескольких голосов
Сгенерируйте один и тот же текст разными голосами для сравнения:
Британский английский с управлением скоростью
Пакетная обработка файлов
Обрабатывайте несколько текстов и объединяйте в единый файл в стиле аудиокниги:
Советы для пользователей Clore.ai
Вывод на CPU — Kokoro достаточно мала, чтобы работать на CPU; полезно для задач с ограниченным бюджетом или когда GPU недоступны
Потоковая передача (Streaming) — генератор выдаёт аудиочанки по мере их создания, что позволяет воспроизводить в реальном времени в веб-приложениях
Комбинирование с WhisperX — используйте WhisperX для транскрипции и Kokoro для повторного синтеза в голосовых конвейерах
Docker — используйте
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtimeи добавьтеapt-get install -y espeak-ngв ваш автозапускСогласованность голоса — придерживайтесь одного идентификатора голоса на проект для консистентного восприятия рассказчика
Экономичность — при $0.15/день на RTX 3060 Kokoro — одно из самых дешёвых решений TTS для самостоятельного хостинга
Устранение неполадок
espeak-ng не найден
Запустите apt-get install -y espeak-ng (требуемая системная зависимость)
ModuleNotFoundError: kokoro
Установите с помощью pip install kokoro>=0.9.4 soundfile
Аудио звучит роботизированно
Попробуйте другой голос (например, af_heart обычно звучит наиболее естественно)
Японский/китайский не работают
Установите языковые дополнения: pip install misaki[ja] или misaki[zh]
Недостаточно памяти на CPU
Уменьшите длину текста за вызов; Kokoro стримит чанки, поэтому память остаётся ограниченной
Медленный первый запуск
Загрузка весов модели при первом использовании (~200 МБ); последующие запуски мгновенные
Последнее обновление
Это было полезно?