Kokoro TTS
Exécuter Kokoro TTS — modèle TTS ultra-léger de 82M paramètres sur les GPU Clore.ai.
Kokoro est un modèle de synthèse vocale (text-to-speech) de 82 millions de paramètres qui surpasse largement son gabarit. Malgré sa petite taille (moins de 2 Go de VRAM), il produit une parole anglaise remarquablement naturelle et fonctionne en temps réel ou plus vite, même sur du matériel économique. Avec une licence Apache 2.0, plusieurs styles de voix intégrés et la prise en charge de l'inférence sur CPU, Kokoro est idéal pour les applications en temps réel, les chatbots et les déploiements en périphérie.
HuggingFace : hexgrad/Kokoro-82M PyPI : kokoro Licence : Apache 2.0
Principales caractéristiques
82M de paramètres — l'un des plus petits modèles TTS de haute qualité disponibles
< 2 Go VRAM — fonctionne sur pratiquement n'importe quel GPU, et même sur CPU
Plusieurs styles de voix — anglais américain, anglais britannique ; voix masculines et féminines
Temps réel ou plus rapide — inférence à faible latence adaptée au streaming
Génération en streaming — produit des morceaux audio au fur et à mesure qu'ils sont générés
Prise en charge multilingue — anglais (principal), japonais (
misaki[ja]), chinois (misaki[zh])Apache 2.0 — gratuit pour un usage personnel et commercial
Exigences
GPU
Tout avec 2 Go de VRAM
RTX 3060
VRAM
2 Go
4 Go
RAM
4 Go
8 Go
Disque
500 Mo
1 Go
Python
3.9+
3.11
Système
espeak-ng installé
—
Recommandation Clore.ai : Une RTX 3060 (~0,15–0,30 $/jour) est plus que suffisante. Kokoro peut même fonctionner sur des instances CPU-only pour une synthèse vocale extrêmement économique.
Installation
Démarrage rapide
Exemples d'utilisation
Comparaison de plusieurs voix
Générez le même texte avec différentes voix pour comparer :
Anglais britannique avec contrôle de la vitesse
Traitement de fichiers par lot
Traitez plusieurs textes et concaténez-les dans un seul fichier de type livre audio :
Conseils pour les utilisateurs de Clore.ai
Inférence sur CPU — Kokoro est assez petit pour fonctionner sur CPU ; utile pour les charges de travail sensibles au coût ou lorsque les GPU ne sont pas disponibles
Streaming — le générateur produit des morceaux audio au fur et à mesure, permettant la lecture en temps réel dans des applications web
Associer avec WhisperX — utilisez WhisperX pour la transcription et Kokoro pour la ré-synthèse dans des pipelines vocaux
Docker — utiliser
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtimeet ajoutezapt-get install -y espeak-ngà votre démarrageCohérence de la voix — restez sur un seul identifiant de voix par projet pour une expérience de narration cohérente
Efficacité des coûts — à 0,15 $/jour sur une RTX 3060, Kokoro est l'une des solutions TTS les moins chères à auto-héberger
Dépannage
espeak-ng introuvable
Exécutez apt-get install -y espeak-ng (dépendance système requise)
ModuleNotFoundError: kokoro
Installer avec pip install kokoro>=0.9.4 soundfile
L'audio sonne robotique
Essayez une voix différente (par exemple, af_heart a tendance à sonner le plus naturel)
Japonais/Chinois ne fonctionne pas
Installez les extras de langue : pip install misaki[ja] ou misaki[zh]
Mémoire insuffisante sur le CPU
Réduisez la longueur du texte par appel ; Kokoro diffuse des morceaux pour que la mémoire reste bornée
Première exécution lente
Téléchargement des poids du modèle lors de la première utilisation (~200 Mo) ; les exécutions ultérieures sont instantanées
Mis à jour
Ce contenu vous a-t-il été utile ?