Kani-TTS-2 वॉइस क्लोनिंग
Kani-TTS-2 चलाएँ — Clore.ai GPUs पर वॉइस क्लोनिंग के साथ एक अल्ट्रा-एफिशिएंट 400M पैरामीटर टेक्स्ट-टू-स्पीच मॉडल
nineninesix.ai द्वारा Kani-TTS-2 (जारी: 15 फरवरी, 2026) एक 400M-पैरामीटर ओपन-सोर्स टेक्स्ट-टु-स्पीच मॉडल है जो केवल 3GB VRAMका उपयोग करके उच्च-निष्ठा वाली भाषण सिंथेसिस प्राप्त करता है। LiquidAI के LFM2 आर्किटेक्चर और NVIDIA NanoCodec पर निर्मित, यह ऑडियो को एक भाषा के रूप में मानता है — एक छोटे संदर्भ ऑडियो क्लिप से जीरो-शॉट वॉइस क्लोनिंग के साथ प्राकृतिक सुनाई देने वाला भाषण उत्पन्न करता है। प्रतिस्पर्धी मॉडलों के आकार के आधे से भी कम और गणना के एक हिस्से पर, Kani-TTS-2 वास्तविक-समय संवादात्मक एआई, ऑडियोबुक उत्पादन और बजट हार्डवेयर पर वॉइस क्लोनिंग के लिए आदर्श है।
HuggingFace: nineninesix/kani-tts-2-en GitHub: nineninesix-ai/kani-tts-2 PyPI: kani-tts-2 लाइसेंस: Apache 2.0
प्रमुख विशेषताएँ
400M पैरामीटर, 3GB VRAM — लगभग किसी भी आधुनिक GPU पर चलता है, जिसमें RTX 3060 भी शामिल है
जीरो-शॉट वॉइस क्लोनिंग — 3–30 सेकंड के संदर्भ ऑडियो नमूने से किसी भी आवाज़ को क्लोन करें
स्पीकर एम्बेडिंग्स — सटीक वॉइस नियंत्रण के लिए WavLM-आधारित 128-डायमेंशनल स्पीकर प्रतिनिधित्व
लगातार ऑडियो के लिए 40 सेकंड तक — लंबे अनुच्छेदों और संवाद के लिए उपयुक्त
रीयल-टाइम या उससे तेज़ — RTX 5080 पर RTF ~0.2, बजट GPUs पर भी वास्तविक-समय
Apache 2.0 — व्यक्तिगत और व्यावसायिक उपयोग के लिए पूरी तरह खुला
पूर्व-प्रशिक्षण फ्रेमवर्क शामिल — किसी भी भाषा पर शून्य से अपना TTS मॉडल ट्रेन करें
अन्य TTS मॉडलोंとの तुलना
Kani-TTS-2
400M
3GB
✅ जीरो-शॉट
अंग्रेजी (विस्तार योग्य)
Apache 2.0
Kokoro
82M
2GB
❌ प्रीसेट वॉइसेज़
EN, JP, CN
Apache 2.0
Zonos
400M
8GB
✅
मल्टी
Apache 2.0
ChatTTS
300M
4GB
❌ रैंडम सीड्स
चीनी, अंग्रेज़ी
AGPL 3.0
Chatterbox
500M
6GB
✅
अंग्रेज़ी
Apache 2.0
XTTS (Coqui)
467M
6GB
✅
मल्टी
MPL 2.0
F5-TTS
335M
4GB
✅
मल्टी
CC-BY-NC 4.0
आवश्यकताएँ
GPU
कोई भी जिसमें 3GB VRAM हो
RTX 3060 या बेहतर
VRAM
3GB
6GB
RAM
8GB
16GB
डिस्क
2GB
5GB
Python
3.9+
3.11+
CUDA
11.8+
12.0+
Clore.ai सिफारिश: एक RTX 3060 ($0.15–0.30/दिन) पर्याप्त से भी अधिक है। Clore.ai पर सबसे सस्ते GPU इंस्टेंस भी Kani-TTS-2 को आराम से चला पाएंगे। बैच प्रोसेसिंग (ऑडियोबुक, डेटासेट) के लिए, एक RTX 4090 ($0.5–2/दिन) उत्कृष्ट थ्रूपुट प्रदान करता है।
इंस्टॉलेशन
त्वरित प्रारम्भ
भाषण उत्पन्न करने के तीन लाइनें:
उपयोग के उदाहरण
1. बेसिक टेक्स्ट-टु-स्पीच
2. वॉइस क्लोनिंग
किसी छोटे संदर्भ ऑडियो नमूने से किसी भी आवाज़ को क्लोन करें:
3. ऑडियोबुक के लिए बैच जेनरेशन
प्रभावी ढंग से कई अध्याय उत्पन्न करें:
4. OpenAI-अनुकूल स्ट्रीमिंग API
रीयल-टाइम अनुप्रयोगों के लिए, OpenAI-अनुकूल सर्वर का उपयोग करें:
फिर किसी भी OpenAI TTS क्लाइंट के साथ इसका उपयोग करें:
Clore.ai उपयोगकर्ताओं के लिए सुझाव
इसे चलाना सबसे सस्ता मॉडल है — 3GB VRAM पर, Kani-TTS-2 वास्तव में Clore.ai पर किसी भी GPU इंस्टेंस पर चलता है। $0.15/दिन की RTX 3060 उत्पादन TTS के लिए अधिक से अधिक पर्याप्त है।
एक भाषा मॉडल के साथ संयोजन करें — एक GPU इंस्टेंस किराये पर लें और एक छोटा LLM (जैसे Mistral 3 8B) और Kani-TTS-2 दोनों एक साथ चलाएँ ताकि एक पूर्ण वॉइस असिस्टेंट बन सके। वे GPU साझा करेंगे और जगह बचेगी।
स्पीकर एम्बेडिंग्स पहले से कम्प्यूट करें — स्पीकर एम्बेडिंग्स एक बार निकालकर सहेजें। इससे हर अनुरोध पर WavLM एम्बेडर मॉडल लोड करने की आवश्यकता नहीं होगी।
OpenAI-अनुकूल सर्वर का उपयोग करें — यह
kani-tts-2-openai-serverOpenAI के TTS API के लिए एक ड्राप-इन प्रतिस्थापन प्रदान करता है, जिससे मौजूदा अनुप्रयोगों के साथ एकीकरण आसान हो जाता है।कस्टम भाषाओं पर प्रशिक्षण करें — Kani-TTS-2 में एक पूरा पूर्व-प्रशिक्षण फ्रेमवर्क शामिल है (kani-tts-2-pretrain)। अपने स्वयं के भाषा डेटासेट पर मॉडल को फाइन-ट्यून करें — इसके लिए केवल ~6 घंटों के लिए 8× H100s की आवश्यकता होती है।
समस्याओं का निवारण
ImportError: cannot import LFM2
सही transformers संस्करण इंस्टॉल करें: pip install -U "transformers==4.56.0"
ऑडियो गुणवत्ता खराब / रोबोटिक है
बढ़ाएँ temperature को 0.8–0.9 तक; क्लोनिंग के लिए संदर्भ ऑडियो सुनिश्चित करें कि साफ़ हो (कोई पृष्ठभूमि शोर न हो)
वॉइस क्लोनिंग संदर्भ जैसी नहीं सुनाई देती
5–15 सेकंड का स्पष्ट, एकल-भाषी ऑडियो उपयोग करें। संदर्भ में संगीत या पृष्ठभूमि शोर से बचें
CUDA में आउट ऑफ मेमोरी
3GB मॉडल के साथ ऐसा नहीं होना चाहिए — जांचें कि क्या अन्य प्रक्रियाएँ GPU मेमोरी का उपयोग कर रही हैं (nvidia-smi)
ऑडियो वाक्य के बीच में कट जाता है
Kani-TTS-2 ~40 सेकंड तक का समर्थन करता है। लंबे टेक्स्ट को वाक्यों में विभाजित करें और आउटपुट को जोड़ें
CPU पर धीमा
GPU इन्फरेंस की दृढ़ सिफारिश की जाती है। एक साधारण GPU भी CPU से 10–50× तेज़ है
अधिक पढ़ने के लिए
GitHub — kani-tts-2 — PyPI पैकेज, उपयोग दस्तावेज़, उन्नत उदाहरण
HuggingFace — kani-tts-2-en — अंग्रेज़ी मॉडल वेट्स
पूर्व-प्रशिक्षण फ्रेमवर्क — अपना TTS मॉडल शून्य से ट्रेन करें
OpenAI-अनुकूल सर्वर — OpenAI TTS API के लिए ड्राप-इन प्रतिस्थापन
स्पीकर एम्बेडिंग मॉडल — WavLM-आधारित वॉइस एम्बेडर
MarkTechPost ओवरव्यू — समुदाय कवरेज
Last updated
Was this helpful?