ChatTTS संवादात्मक स्पीच

Clore.ai GPUs पर सूक्ष्म प्रोसोडी नियंत्रण के साथ ChatTTS संवादात्मक टेक्स्ट-टु-स्पीच चलाएँ।

ChatTTS एक 300M-पैरामीटर जेनरेटिव स्पीच मॉडल है जो LLM असिस्टेंट, चैटबॉट और इंटरैक्टिव वॉइस एप्लिकेशन जैसे संवाद परिदृश्यों के लिए अनुकूलित है। यह प्राकृतिक-सा बोलना उत्पन्न करता है जिसमें संवाद के लिए यथार्थवादी विराम, हँसी, फिलर्स और उच्चारण शामिल हैं — ऐसे गुण जिन्हें अधिकांश TTS सिस्टम दोहराने में संघर्ष करते हैं। मॉडल अंग्रेजी और चीनी का समर्थन करता है और 24 kHz पर ऑडियो जेनरेट करता है।

GitHub: 2noise/ChatTTSarrow-up-right (30K+ स्टार्स) लाइसेंस: AGPLv3+ (कोड), CC BY-NC 4.0 (मॉडल वेट्स — गैर-वाणिज्यिक)

प्रमुख विशेषताएँ

  • संवादी प्रयोजना (Conversational prosody) — संवाद के लिए समायोजित प्राकृतिक विराम, फिलर्स और उच्चारण

  • सूक्ष्म-नियंत्रण टैग[oral_0-9], [laugh_0-2], [break_0-7], [uv_break], [lbreak]

  • बहु-भाषी/बहु-वक्ता (Multi-speaker) — यादृच्छिक वक्ताओं का सैंपल लें या सुसंगतता के लिए वक्ता एम्बेडिंग्स पुन: उपयोग करें

  • टेम्परेचर / top-P / top-K — जेनरेशन विविधता नियंत्रित करें

  • बैच इनफ़रेंस — एक ही कॉल में कई टेक्स्ट संश्लेषित करें

  • हल्का/लाइटवेट — ~300M पैरामीटर, 4 GB VRAM पर चलता है

आवश्यकताएँ

घटक
न्यूनतम
अनुशंसित

GPU

RTX 3060 (4 GB मुक्त)

RTX 3090 / RTX 4090

VRAM

4 GB

8 GB+

RAM

8 GB

16 GB

डिस्क

5 GB

10 GB

Python

3.9+

3.11

CUDA

11.8+

12.1+

Clore.ai सिफारिश: एक RTX 3060 ($0.15–0.30/दिन) आसानी से ChatTTS संभालता है। बैच उत्पादन या कम विलंबता के लिए, RTX 3090 चुनें ($0.30–1.00/दिन)।

इंस्टॉलेशन

त्वरित प्रारम्भ

उपयोग के उदाहरण

सुसंगत वक्ता की आवाज

एक सुसंगत आवाज के लिए एक यादृच्छिक वक्ता एम्बेडिंग सैंपल करें और इसे कई जेनरेशनों में पुन: उपयोग करें:

शब्द-स्तरीय नियंत्रण टैग

सटीक छंद-लय के लिए नियंत्रण टैग सीधे पाठ में डालें:

वेबUI के साथ बैच प्रसंस्करण

इंटरैक्टिव उपयोग के लिए ChatTTS गराडियो वेब इंटरफेस के साथ आता है:

खोलें http_pub UI तक पहुँचने के लिए अपने Clore.ai ऑर्डर डैशबोर्ड से URL।

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  • उपयोग करें compile=True प्रारंभिक परीक्षण के बाद — PyTorch कम्पाइलेशन स्टार्टअप समय बढ़ाता है लेकिन बार-बार इनफ़रेंस को काफी तेज़ कर देता है

  • पोर्ट मैपिंग — पोर्ट खोलें 7860/http जब WebUI के साथ परिनियोजित कर रहे हों

  • Docker इमेज — उपयोग करें pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime एक बेस के रूप में

  • स्पीकर निरंतरता — सहेजें rand_spk स्ट्रिंग्स को फ़ाइल में ताकि आप सत्रों के बीच आवाज़ों का पुन: उपयोग कर सकें बिना फिर से सैंपल किए

  • अपने अनुरोधों को बैच करेंchat.infer() पाठों की एक सूची स्वीकार करता है और उन्हें एक साथ प्रोसेस करता है, जो एक-एक करके कॉल करने से अधिक कुशल है

  • गैर-व्यावसायिक लाइसेंस — मॉडल वज़न CC BY-NC 4.0 हैं; अपने उपयोग के मामले के लिए लाइसेंसिंग आवश्यकताओं की जाँच करें

समस्याओं का निवारण

समस्या
समाधान

CUDA में आउट ऑफ मेमोरी

बैच साइज कम करें या ≥ 6 GB VRAM वाले GPU का उपयोग करें

मॉडल धीरे-धीरे डाउनलोड होता है

HuggingFace से पहले से डाउनलोड करें: huggingface-cli download 2Noise/ChatTTS

ऑडियो में स्टैटिक/शोर है

यह ओपन-सोर्स मॉडल में जानबूझकर है (दुरुपयोग-रोधी उपाय); साफ़ आउटपुट के लिए उपयोग करें compile=True साफ़ आउटपुट के लिए

torchaudio.save आयाम त्रुटि

सुनिश्चित करें टेन्सर 2D है: audio.unsqueeze(0) यदि आवश्यक हो

बिखरी हुई चीनी आउटपुट

सुनिश्चित करें कि इनपुट पाठ UTF-8 एन्कोडेड है; इंस्टॉल करें WeTextProcessing बेहतर सामान्यीकरण के लिए

पहला अनुमान धीमा

सामान्य — मॉडल संकलन और वज़न लोडिंग पहले कॉल पर होते हैं; बाद की कॉलें तेज़ होती हैं

Last updated

Was this helpful?