Dia TTS (Nari Labs)

Nari Labs के Dia TTS का उपयोग करके भावना सहित बहु-वादी संवाद जनरेट करें

Dia by Nari Labs एक उन्नत टेक्स्ट-टू-स्पीच मॉडल है जो विशेष रूप से वास्तविक बहु-वक्ता संवादके लिए माहिर है। पारंपरिक TTS के विपरीत जो एक समय में एक वक्ता को संभालता है, Dia कई वक्ताओं के बीच भाव, हँसी, हिचकिचाहट और अन्य गैर-मौखिक संकेतों के साथ प्राकृतिक बातचीत उत्पन्न करता है। 1.6B पैरामीटर पर, यह किसी भी 8GB+ GPU पर चलता है।

प्रमुख विशेषताएँ

  • बहु-वक्ता संवाद: एक ही पास में 2+ वक्ताओं के बीच वार्तालाप उत्पन्न करें

  • गैर-मौखिक संकेत: हँसी (हँसता है), हिचकिचाहट (आह/आह भरता है), विराम — स्वचालित रूप से सम्मिलित

  • भावनात्मक भाषण: स्पष्ट इमोशन टैग के बिना प्राकृतिक उच्चारण

  • 1.6B पैरामीटर: RTX 3070/3080 (8-10GB VRAM) पर फिट बैठता है

  • Apache 2.0 लाइसेंस: पूर्ण व्यावसायिक उपयोग

  • HuggingFace एकीकरण: Transformers लाइब्रेरी के साथ काम करता है

आवश्यकताएँ

घटक
न्यूनतम
अनुशंसित

GPU

RTX 3070 (8GB)

RTX 3080 (10GB)

VRAM

8GB

10GB+

RAM

16GB

32GB

डिस्क

10GB

15GB

Python

3.9+

3.11

अनुशंसित Clore.ai GPU: RTX 3080 10GB (~$0.2–0.5/दिन)

इंस्टॉलेशन

त्वरित प्रारम्भ

मूल बहु-वक्ता संवाद

भावना और गैर-मौखिक संकेतों के साथ

एकल वक्ता

Gradio वेब UI

उपयोग के मामले

  • पॉडकास्ट जनरेशन: स्क्रिप्ट से वार्तालापात्मक पॉडकास्ट बनाएँ

  • ऑडियोबुक संवाद: अलग-अलग आवाजों वाले पात्रों के बीच बातचीत उत्पन्न करें

  • गेम संवाद: NPC वार्तालाप जिनमें प्राकृतिक भाषण पैटर्न हों

  • प्रशिक्षण डेटा: ASR प्रशिक्षण के लिए विविध भाषण डेटासेट उत्पन्न करें

  • चैटबोट आवाज़ें: भावनात्मक प्रतिक्रियाओं के साथ बहु-टर्न संवाद

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  • RTX 3080 आदर्श है: 10GB VRAM Dia को आसानी से संभालता है ~ $0.2–0.5/दिन में

  • बैच जनरेशन: अपने रेंटल समय को अधिकतम करने के लिए लूप में कई संवाद प्रोसेस करें

  • मॉडल को परमानेंट स्टोरेज में सहेजें: यदि आपके Clore इंस्टेंस में परमानेंट डिस्क है, तो मॉडल को कैश करें ताकि पुनः‑डाउनलोड से बचा जा सके

  • टेम्परेचर 0.7–0.9: कम = अधिक सुसंगत, उच्च = अधिक अभिव्यक्तिपूर्ण/विविध

  • केवल अंग्रेज़ी: वर्तमान में Dia अंग्रेज़ी पर केंद्रित है — बहुभाषी के लिए Qwen3-TTS गाइड देखें

समस्याओं का निवारण

समस्या
समाधान

CUDA में आउट ऑफ मेमोरी

उपयोग करें model.to("cuda", torch_dtype=torch.float16) आधा प्रिसिजन के लिए

वक्ताओं की आवाज़ें समान लगती हैं

प्रति वक्ता अधिक टेक्स्ट/संदर्भ जोड़ें; उच्च तापमान आज़माएँ

गैर-मौखिक संकेत अनदेखा हो रहे हैं

सुनिश्चित करें कि सही फ़ॉर्मेट है: (हँसता है), (आह/आह भरता है) कोष्ठकों में

ऑडियो गुणवत्ता कम है

बढ़ाएँ num_steps यदि उपलब्ध पैरामीटर; सुनिश्चित करें 24kHz सैंपल रेट

अधिक पढ़ने के लिए

Last updated

Was this helpful?