ChatTTS संवादात्मक स्पीच
Clore.ai GPUs पर सूक्ष्म प्रोसोडी नियंत्रण के साथ ChatTTS संवादात्मक टेक्स्ट-टु-स्पीच चलाएँ।
ChatTTS एक 300M-पैरामीटर जेनरेटिव स्पीच मॉडल है जो LLM असिस्टेंट, चैटबॉट और इंटरैक्टिव वॉइस एप्लिकेशन जैसे संवाद परिदृश्यों के लिए अनुकूलित है। यह प्राकृतिक-सा बोलना उत्पन्न करता है जिसमें संवाद के लिए यथार्थवादी विराम, हँसी, फिलर्स और उच्चारण शामिल हैं — ऐसे गुण जिन्हें अधिकांश TTS सिस्टम दोहराने में संघर्ष करते हैं। मॉडल अंग्रेजी और चीनी का समर्थन करता है और 24 kHz पर ऑडियो जेनरेट करता है।
GitHub: 2noise/ChatTTS (30K+ स्टार्स) लाइसेंस: AGPLv3+ (कोड), CC BY-NC 4.0 (मॉडल वेट्स — गैर-वाणिज्यिक)
प्रमुख विशेषताएँ
संवादी प्रयोजना (Conversational prosody) — संवाद के लिए समायोजित प्राकृतिक विराम, फिलर्स और उच्चारण
सूक्ष्म-नियंत्रण टैग —
[oral_0-9],[laugh_0-2],[break_0-7],[uv_break],[lbreak]बहु-भाषी/बहु-वक्ता (Multi-speaker) — यादृच्छिक वक्ताओं का सैंपल लें या सुसंगतता के लिए वक्ता एम्बेडिंग्स पुन: उपयोग करें
टेम्परेचर / top-P / top-K — जेनरेशन विविधता नियंत्रित करें
बैच इनफ़रेंस — एक ही कॉल में कई टेक्स्ट संश्लेषित करें
हल्का/लाइटवेट — ~300M पैरामीटर, 4 GB VRAM पर चलता है
आवश्यकताएँ
GPU
RTX 3060 (4 GB मुक्त)
RTX 3090 / RTX 4090
VRAM
4 GB
8 GB+
RAM
8 GB
16 GB
डिस्क
5 GB
10 GB
Python
3.9+
3.11
CUDA
11.8+
12.1+
Clore.ai सिफारिश: एक RTX 3060 ($0.15–0.30/दिन) आसानी से ChatTTS संभालता है। बैच उत्पादन या कम विलंबता के लिए, RTX 3090 चुनें ($0.30–1.00/दिन)।
इंस्टॉलेशन
त्वरित प्रारम्भ
उपयोग के उदाहरण
सुसंगत वक्ता की आवाज
एक सुसंगत आवाज के लिए एक यादृच्छिक वक्ता एम्बेडिंग सैंपल करें और इसे कई जेनरेशनों में पुन: उपयोग करें:
शब्द-स्तरीय नियंत्रण टैग
सटीक छंद-लय के लिए नियंत्रण टैग सीधे पाठ में डालें:
वेबUI के साथ बैच प्रसंस्करण
इंटरैक्टिव उपयोग के लिए ChatTTS गराडियो वेब इंटरफेस के साथ आता है:
खोलें http_pub UI तक पहुँचने के लिए अपने Clore.ai ऑर्डर डैशबोर्ड से URL।
Clore.ai उपयोगकर्ताओं के लिए सुझाव
उपयोग करें
compile=Trueप्रारंभिक परीक्षण के बाद — PyTorch कम्पाइलेशन स्टार्टअप समय बढ़ाता है लेकिन बार-बार इनफ़रेंस को काफी तेज़ कर देता हैपोर्ट मैपिंग — पोर्ट खोलें
7860/httpजब WebUI के साथ परिनियोजित कर रहे होंDocker इमेज — उपयोग करें
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtimeएक बेस के रूप मेंस्पीकर निरंतरता — सहेजें
rand_spkस्ट्रिंग्स को फ़ाइल में ताकि आप सत्रों के बीच आवाज़ों का पुन: उपयोग कर सकें बिना फिर से सैंपल किएअपने अनुरोधों को बैच करें —
chat.infer()पाठों की एक सूची स्वीकार करता है और उन्हें एक साथ प्रोसेस करता है, जो एक-एक करके कॉल करने से अधिक कुशल हैगैर-व्यावसायिक लाइसेंस — मॉडल वज़न CC BY-NC 4.0 हैं; अपने उपयोग के मामले के लिए लाइसेंसिंग आवश्यकताओं की जाँच करें
समस्याओं का निवारण
CUDA में आउट ऑफ मेमोरी
बैच साइज कम करें या ≥ 6 GB VRAM वाले GPU का उपयोग करें
मॉडल धीरे-धीरे डाउनलोड होता है
HuggingFace से पहले से डाउनलोड करें: huggingface-cli download 2Noise/ChatTTS
ऑडियो में स्टैटिक/शोर है
यह ओपन-सोर्स मॉडल में जानबूझकर है (दुरुपयोग-रोधी उपाय); साफ़ आउटपुट के लिए उपयोग करें compile=True साफ़ आउटपुट के लिए
torchaudio.save आयाम त्रुटि
सुनिश्चित करें टेन्सर 2D है: audio.unsqueeze(0) यदि आवश्यक हो
बिखरी हुई चीनी आउटपुट
सुनिश्चित करें कि इनपुट पाठ UTF-8 एन्कोडेड है; इंस्टॉल करें WeTextProcessing बेहतर सामान्यीकरण के लिए
पहला अनुमान धीमा
सामान्य — मॉडल संकलन और वज़न लोडिंग पहले कॉल पर होते हैं; बाद की कॉलें तेज़ होती हैं
Last updated
Was this helpful?