Kokoro TTS
Clore.ai GPUs पर Kokoro TTS — एक अत्यंत हल्का 82M-पैरामीटर text-to-speech model — चलाएँ।
Kokoro एक 82M-पैरामीटर टेक्स्ट-टू-स्पीच मॉडल है जो अपने आकार से कहीं बेहतर प्रदर्शन करता है। अपनी छोटी साइज (2 GB VRAM से कम) के बावजूद, यह असाधारण रूप से प्राकृतिक अंग्रेजी भाषण उत्पन्न करता है और सस्ते हार्डवेयर पर भी रीयल‑टाइम या उससे तेज़ गति पर चलता है। Apache 2.0 लाइसेंसिंग, कई बिल्ट‑इन वॉइस स्टाइल और CPU इनफेरेंस सपोर्ट के साथ, Kokoro रीयल‑टाइम अनुप्रयोगों, चैटबॉट्स और एज पर डिप्लॉयमेंट के लिए आदर्श है।
HuggingFace: hexgrad/Kokoro-82M PyPI: kokoro लाइसेंस: Apache 2.0
प्रमुख विशेषताएँ
82M पैरामीटर — उपलब्ध सबसे छोटे उच्च-गुणवत्ता TTS मॉडलों में से एक
< 2 GB VRAM — लगभग किसी भी GPU पर चलता है, और यहां तक कि CPU पर भी
कई वॉइस स्टाइल — अमेरिकी अंग्रेज़ी, ब्रिटिश अंग्रेज़ी; पुरुष और महिला वॉइसेज़
रीयल-टाइम या उससे तेज़ — स्ट्रीमिंग के लिए उपयुक्त कम‑लेटेंसी इनफेरेंस
स्ट्रीमिंग जनरेशन — जैसे-जैसे ऑडियो बनता है उसमेंchunks/खंड देता है
बहु-भाषा समर्थन — अंग्रेजी (मुख्य), जापानी (
misaki[ja]), चीनी (misaki[zh])Apache 2.0 — व्यक्तिगत और व्यावसायिक उपयोग के लिए मुफ्त
आवश्यकताएँ
GPU
कोई भी जिसमें 2 GB VRAM हो
RTX 3060
VRAM
2 GB
4 GB
RAM
4 GB
8 GB
डिस्क
500 MB
1 GB
Python
3.9+
3.11
सिस्टम
espeak-ng इंस्टॉल किया हुआ होना चाहिए
—
Clore.ai सिफारिश: एक RTX 3060 (~$0.15–0.30/दिन) अधिक than पर्याप्त है। Kokoro अत्यंत किफायती TTS के लिए CPU‑only इंस्टेंस पर भी चल सकता है।
इंस्टॉलेशन
त्वरित प्रारम्भ
उपयोग के उदाहरण
कई वॉइसेज़ की तुलना
तुलना करने के लिए एक ही टेक्स्ट विभिन्न वॉइसेज़ के साथ जनरेट करें:
स्पीड कंट्रोल के साथ ब्रिटिश इंग्लिश
बैच फ़ाइल प्रोसेसिंग
कई टेक्स्ट प्रोसेस करें और एक सिंगल ऑडियोबुक‑स्टाइल फ़ाइल में जोड़ें:
Clore.ai उपयोगकर्ताओं के लिए सुझाव
CPU इनफेरेंस — Kokoro CPU पर चलने के लिए इतना छोटा है; लागत‑संवेदनशील वर्कलोड या जब GPU उपलब्ध न हों तब उपयोगी
स्ट्रीमिंग — जनरेटर जैसे‑जैसे ऑडियो बनता है खंड देता है, जिससे वेब ऐप्स में रीयल‑टाइम प्लेबैक संभव होता है
WhisperX के साथ संयोजन करें — ट्रांसक्रिप्शन के लिए WhisperX और वॉइस पाइपलाइनों में री‑सिंथेसिस के लिए Kokoro का उपयोग करें
Docker — उपयोग करें
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtimeऔर जोड़ेंapt-get install -y espeak-ngअपने स्टार्टअप मेंवॉइस सुसंगतता — एक सुसंगत नैरेटर अनुभव के लिए प्रति प्रोजेक्ट एक ही वॉइस ID पर टिके रहें
लागत दक्षता — RTX 3060 पर $0.15/दिन की कीमत पर, Kokoro स्वयं‑होस्ट करने के लिए सबसे सस्ते TTS समाधानों में से एक है
समस्याओं का निवारण
espeak-ng नहीं मिला
चलाएँ apt-get install -y espeak-ng (आवश्यक सिस्टम निर्भरता)
ModuleNotFoundError: kokoro
इंस्टॉल करें साथ में pip install kokoro>=0.9.4 soundfile
ऑडियो रोबोटिक लगता है
एक अलग वॉइस आज़माएँ (उदा., af_heart सबसे प्राकृतिक सुनाई देने की प्रवृत्ति रखता है)
जापानी/चीनी काम नहीं कर रहा
भाषा एक्सट्रा इंस्टॉल करें: pip install misaki[ja] या misaki[zh]
CPU पर मेमोरी ख़त्म हो रही है
प्रति कॉल टेक्स्ट की लंबाई घटाएँ; Kokoro खंडों को स्ट्रीम करता है इसलिए मेमोरी सीमित रहती है
पहली बार धीमा
पहली बार उपयोग पर मॉडल वेट्स डाउनलोड (~200 MB); बाद के रन त्वरित होते हैं
Last updated
Was this helpful?