Kokoro TTS

Запускайте Kokoro TTS — сверхлёгкую модель text-to-speech с 82M параметров на GPU Clore.ai.

Kokoro — это модель синтеза речи из текста с 82 миллионами параметров, которая значительно превосходит ожидания для своего класса. Несмотря на небольшой размер (меньше 2 ГБ видеопамяти), она воспроизводит удивительно естественную английскую речь и работает в реальном времени или быстрее даже на бюджетном оборудовании. С лицензией Apache 2.0, несколькими встроенными стилями голоса и поддержкой вывода на CPU, Kokoro идеально подходит для приложений в реальном времени, чат-ботов и развёртываний на периферии.

HuggingFace: hexgrad/Kokoro-82Marrow-up-right PyPI: kokoroarrow-up-right Лицензия: Apache 2.0

Ключевые особенности

  • 82M параметров — одна из самых маленьких высококачественных моделей TTS

  • < 2 ГБ VRAM — работает практически на любой GPU и даже на CPU

  • Несколько стилей голоса — американский английский, британский английский; мужские и женские голоса

  • В реальном времени или быстрее — низкая задержка вывода, подходящая для стриминга

  • Потоковая генерация — выдаёт аудиочанки по мере их генерации

  • Поддержку нескольких языков — английский (основной), японский (misaki[ja]), китайский (misaki[zh])

  • Apache 2.0 — бесплатно для личного и коммерческого использования

Требования

Компонент
Минимум
Рекомендуется

GPU

Любая с 2 ГБ VRAM

RTX 3060

VRAM

2 GB

4 ГБ

ОЗУ

4 ГБ

8 ГБ

Диск

500 МБ

1 ГБ

Python

3.9+

3.11

Система

espeak-ng установлен

Рекомендация Clore.ai: RTX 3060 (~$0.15–0.30/день) более чем достаточна. Kokoro может даже запускаться на экземплярах только с CPU, обеспечивая чрезвычайно выгодный по стоимости TTS.

Установка

Быстрый старт

Примеры использования

Сравнение нескольких голосов

Сгенерируйте один и тот же текст разными голосами для сравнения:

Британский английский с управлением скоростью

Пакетная обработка файлов

Обрабатывайте несколько текстов и объединяйте в единый файл в стиле аудиокниги:

Советы для пользователей Clore.ai

  • Вывод на CPU — Kokoro достаточно мала, чтобы работать на CPU; полезно для задач с ограниченным бюджетом или когда GPU недоступны

  • Потоковая передача (Streaming) — генератор выдаёт аудиочанки по мере их создания, что позволяет воспроизводить в реальном времени в веб-приложениях

  • Комбинирование с WhisperX — используйте WhisperX для транскрипции и Kokoro для повторного синтеза в голосовых конвейерах

  • Docker — используйте pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime и добавьте apt-get install -y espeak-ng в ваш автозапуск

  • Согласованность голоса — придерживайтесь одного идентификатора голоса на проект для консистентного восприятия рассказчика

  • Экономичность — при $0.15/день на RTX 3060 Kokoro — одно из самых дешёвых решений TTS для самостоятельного хостинга

Устранение неполадок

Проблема
Решение

espeak-ng не найден

Запустите apt-get install -y espeak-ng (требуемая системная зависимость)

ModuleNotFoundError: kokoro

Установите с помощью pip install kokoro>=0.9.4 soundfile

Аудио звучит роботизированно

Попробуйте другой голос (например, af_heart обычно звучит наиболее естественно)

Японский/китайский не работают

Установите языковые дополнения: pip install misaki[ja] или misaki[zh]

Недостаточно памяти на CPU

Уменьшите длину текста за вызов; Kokoro стримит чанки, поэтому память остаётся ограниченной

Медленный первый запуск

Загрузка весов модели при первом использовании (~200 МБ); последующие запуски мгновенные

Последнее обновление

Это было полезно?