Kokoro TTS

Clore.ai GPUs पर Kokoro TTS — एक अत्यंत हल्का 82M-पैरामीटर text-to-speech model — चलाएँ।

Kokoro एक 82M-पैरामीटर टेक्स्ट-टू-स्पीच मॉडल है जो अपने आकार से कहीं बेहतर प्रदर्शन करता है। अपनी छोटी साइज (2 GB VRAM से कम) के बावजूद, यह असाधारण रूप से प्राकृतिक अंग्रेजी भाषण उत्पन्न करता है और सस्ते हार्डवेयर पर भी रीयल‑टाइम या उससे तेज़ गति पर चलता है। Apache 2.0 लाइसेंसिंग, कई बिल्ट‑इन वॉइस स्टाइल और CPU इनफेरेंस सपोर्ट के साथ, Kokoro रीयल‑टाइम अनुप्रयोगों, चैटबॉट्स और एज पर डिप्लॉयमेंट के लिए आदर्श है।

HuggingFace: hexgrad/Kokoro-82Marrow-up-right PyPI: kokoroarrow-up-right लाइसेंस: Apache 2.0

प्रमुख विशेषताएँ

  • 82M पैरामीटर — उपलब्ध सबसे छोटे उच्च-गुणवत्ता TTS मॉडलों में से एक

  • < 2 GB VRAM — लगभग किसी भी GPU पर चलता है, और यहां तक कि CPU पर भी

  • कई वॉइस स्टाइल — अमेरिकी अंग्रेज़ी, ब्रिटिश अंग्रेज़ी; पुरुष और महिला वॉइसेज़

  • रीयल-टाइम या उससे तेज़ — स्ट्रीमिंग के लिए उपयुक्त कम‑लेटेंसी इनफेरेंस

  • स्ट्रीमिंग जनरेशन — जैसे-जैसे ऑडियो बनता है उसमेंchunks/खंड देता है

  • बहु-भाषा समर्थन — अंग्रेजी (मुख्य), जापानी (misaki[ja]), चीनी (misaki[zh])

  • Apache 2.0 — व्यक्तिगत और व्यावसायिक उपयोग के लिए मुफ्त

आवश्यकताएँ

घटक
न्यूनतम
अनुशंसित

GPU

कोई भी जिसमें 2 GB VRAM हो

RTX 3060

VRAM

2 GB

4 GB

RAM

4 GB

8 GB

डिस्क

500 MB

1 GB

Python

3.9+

3.11

सिस्टम

espeak-ng इंस्टॉल किया हुआ होना चाहिए

Clore.ai सिफारिश: एक RTX 3060 (~$0.15–0.30/दिन) अधिक than पर्याप्त है। Kokoro अत्यंत किफायती TTS के लिए CPU‑only इंस्टेंस पर भी चल सकता है।

इंस्टॉलेशन

त्वरित प्रारम्भ

उपयोग के उदाहरण

कई वॉइसेज़ की तुलना

तुलना करने के लिए एक ही टेक्स्ट विभिन्न वॉइसेज़ के साथ जनरेट करें:

स्पीड कंट्रोल के साथ ब्रिटिश इंग्लिश

बैच फ़ाइल प्रोसेसिंग

कई टेक्स्ट प्रोसेस करें और एक सिंगल ऑडियोबुक‑स्टाइल फ़ाइल में जोड़ें:

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  • CPU इनफेरेंस — Kokoro CPU पर चलने के लिए इतना छोटा है; लागत‑संवेदनशील वर्कलोड या जब GPU उपलब्ध न हों तब उपयोगी

  • स्ट्रीमिंग — जनरेटर जैसे‑जैसे ऑडियो बनता है खंड देता है, जिससे वेब ऐप्स में रीयल‑टाइम प्लेबैक संभव होता है

  • WhisperX के साथ संयोजन करें — ट्रांसक्रिप्शन के लिए WhisperX और वॉइस पाइपलाइनों में री‑सिंथेसिस के लिए Kokoro का उपयोग करें

  • Docker — उपयोग करें pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime और जोड़ें apt-get install -y espeak-ng अपने स्टार्टअप में

  • वॉइस सुसंगतता — एक सुसंगत नैरेटर अनुभव के लिए प्रति प्रोजेक्ट एक ही वॉइस ID पर टिके रहें

  • लागत दक्षता — RTX 3060 पर $0.15/दिन की कीमत पर, Kokoro स्वयं‑होस्ट करने के लिए सबसे सस्ते TTS समाधानों में से एक है

समस्याओं का निवारण

समस्या
समाधान

espeak-ng नहीं मिला

चलाएँ apt-get install -y espeak-ng (आवश्यक सिस्टम निर्भरता)

ModuleNotFoundError: kokoro

इंस्टॉल करें साथ में pip install kokoro>=0.9.4 soundfile

ऑडियो रोबोटिक लगता है

एक अलग वॉइस आज़माएँ (उदा., af_heart सबसे प्राकृतिक सुनाई देने की प्रवृत्ति रखता है)

जापानी/चीनी काम नहीं कर रहा

भाषा एक्सट्रा इंस्टॉल करें: pip install misaki[ja] या misaki[zh]

CPU पर मेमोरी ख़त्म हो रही है

प्रति कॉल टेक्स्ट की लंबाई घटाएँ; Kokoro खंडों को स्ट्रीम करता है इसलिए मेमोरी सीमित रहती है

पहली बार धीमा

पहली बार उपयोग पर मॉडल वेट्स डाउनलोड (~200 MB); बाद के रन त्वरित होते हैं

Last updated

Was this helpful?