Kokoro TTS

Exécuter Kokoro TTS — modèle TTS ultra-léger de 82M paramètres sur les GPU Clore.ai.

Kokoro est un modèle de synthèse vocale (text-to-speech) de 82 millions de paramètres qui surpasse largement son gabarit. Malgré sa petite taille (moins de 2 Go de VRAM), il produit une parole anglaise remarquablement naturelle et fonctionne en temps réel ou plus vite, même sur du matériel économique. Avec une licence Apache 2.0, plusieurs styles de voix intégrés et la prise en charge de l'inférence sur CPU, Kokoro est idéal pour les applications en temps réel, les chatbots et les déploiements en périphérie.

HuggingFace : hexgrad/Kokoro-82Marrow-up-right PyPI : kokoroarrow-up-right Licence : Apache 2.0

Principales caractéristiques

  • 82M de paramètres — l'un des plus petits modèles TTS de haute qualité disponibles

  • < 2 Go VRAM — fonctionne sur pratiquement n'importe quel GPU, et même sur CPU

  • Plusieurs styles de voix — anglais américain, anglais britannique ; voix masculines et féminines

  • Temps réel ou plus rapide — inférence à faible latence adaptée au streaming

  • Génération en streaming — produit des morceaux audio au fur et à mesure qu'ils sont générés

  • Prise en charge multilingue — anglais (principal), japonais (misaki[ja]), chinois (misaki[zh])

  • Apache 2.0 — gratuit pour un usage personnel et commercial

Exigences

Composant
Minimum
Recommandé

GPU

Tout avec 2 Go de VRAM

RTX 3060

VRAM

2 Go

4 Go

RAM

4 Go

8 Go

Disque

500 Mo

1 Go

Python

3.9+

3.11

Système

espeak-ng installé

Recommandation Clore.ai : Une RTX 3060 (~0,15–0,30 $/jour) est plus que suffisante. Kokoro peut même fonctionner sur des instances CPU-only pour une synthèse vocale extrêmement économique.

Installation

Démarrage rapide

Exemples d'utilisation

Comparaison de plusieurs voix

Générez le même texte avec différentes voix pour comparer :

Anglais britannique avec contrôle de la vitesse

Traitement de fichiers par lot

Traitez plusieurs textes et concaténez-les dans un seul fichier de type livre audio :

Conseils pour les utilisateurs de Clore.ai

  • Inférence sur CPU — Kokoro est assez petit pour fonctionner sur CPU ; utile pour les charges de travail sensibles au coût ou lorsque les GPU ne sont pas disponibles

  • Streaming — le générateur produit des morceaux audio au fur et à mesure, permettant la lecture en temps réel dans des applications web

  • Associer avec WhisperX — utilisez WhisperX pour la transcription et Kokoro pour la ré-synthèse dans des pipelines vocaux

  • Docker — utiliser pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime et ajoutez apt-get install -y espeak-ng à votre démarrage

  • Cohérence de la voix — restez sur un seul identifiant de voix par projet pour une expérience de narration cohérente

  • Efficacité des coûts — à 0,15 $/jour sur une RTX 3060, Kokoro est l'une des solutions TTS les moins chères à auto-héberger

Dépannage

Problème
Solution

espeak-ng introuvable

Exécutez apt-get install -y espeak-ng (dépendance système requise)

ModuleNotFoundError: kokoro

Installer avec pip install kokoro>=0.9.4 soundfile

L'audio sonne robotique

Essayez une voix différente (par exemple, af_heart a tendance à sonner le plus naturel)

Japonais/Chinois ne fonctionne pas

Installez les extras de langue : pip install misaki[ja] ou misaki[zh]

Mémoire insuffisante sur le CPU

Réduisez la longueur du texte par appel ; Kokoro diffuse des morceaux pour que la mémoire reste bornée

Première exécution lente

Téléchargement des poids du modèle lors de la première utilisation (~200 Mo) ; les exécutions ultérieures sont instantanées

Mis à jour

Ce contenu vous a-t-il été utile ?