Chatterbox वॉइस क्लोनिंग

Clore.ai GPUs पर ज़ीरो-शॉट वॉइस क्लोनिंग और बहुभाषी स्पीच सिंथेसिस के लिए Resemble AI का Chatterbox TTS चलाएँ।

Chatterbox एक उन्नत ओपन-सोर्स टेक्स्ट-टु-स्पीच मॉडल परिवार है जिसे Resemble AIarrow-up-rightद्वारा विकसित किया गया है। यह एक छोटे संदर्भ क्लिप (~10 सेकंड) से ज़ीरो-शॉट वॉइस क्लोनिंग करता है, पैरालिंग्विस्टिक टैग्स का समर्थन करता है जैसे [laugh] और [cough]और 23+ भाषाओं को कवर करने वाला एक बहुभाषी वेरिएंट प्रदान करता है। तीन मॉडल वेरिएंट उपलब्ध हैं: Turbo (350M, कम-लेटेंसी), Original (500M, रचनात्मक नियंत्रण), और Multilingual (500M, 23+ भाषाएँ)।

GitHub: resemble-ai/chatterboxarrow-up-right PyPI: chatterbox-ttsarrow-up-right लाइसेंस: MIT

प्रमुख विशेषताएँ

  • जीरो-शॉट वॉइस क्लोनिंग — लगभग 10 सेकंड के संदर्भ ऑडियो से किसी भी आवाज़ को क्लोन करें

  • पैरालिंग्विस्टिक टैग्स (Turbo) — [laugh], [cough], [chuckle], [sigh] वास्तविक-सदृश बोलचाल के लिए

  • 23+ भाषाएँ (Multilingual) — अरबी, चीनी, फ्रेंच, जर्मन, जापानी, कोरियाई, रूसी, स्पेनिश, और और भी कई

  • CFG और अतिशयोक्ति ट्यूनिंग (Original) — अभिव्यक्ति पर रचनात्मक नियंत्रण

  • तीन मॉडल आकार — Turbo (350M), Original (500M), Multilingual (500M)

  • MIT लाइसेंस — वाणिज्यिक उपयोग के लिए पूरी तरह खुला

आवश्यकताएँ

घटक
न्यूनतम
अनुशंसित

GPU

RTX 3060 12 GB

RTX 3090 / RTX 4090

VRAM

6 GB

10 GB+

RAM

8 GB

16 GB

डिस्क

5 GB

15 GB

Python

3.10+

3.11

CUDA

11.8+

12.1+

Clore.ai सिफारिश: RTX 3090 (आरामदायक VRAM हेडरूम के लिए ($0.30–1.00/दिन)। Turbo मॉडल के लिए RTX 3060 काम करता है। लंबी टेक्स्ट के साथ Multilingual मॉडल के लिए एक RTX 4090 पर विचार करें ($0.50–2.00/दिन)।

इंस्टॉलेशन

त्वरित प्रारम्भ

Turbo मॉडल (न्यूनतम विलंबता)

Original मॉडल (अंग्रेज़ी, रचनात्मक नियंत्रण)

उपयोग के उदाहरण

बहुभाषी वॉइस क्लोनिंग

पैरालिंग्विस्टिक टैग्स (Turbo)

बैच प्रोसेसिंग स्क्रिप्ट

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  • मॉडल चयन — कम-लेटेंसी वॉइस एजेंट्स के लिए Turbo का उपयोग करें, अंग्रेज़ी रचनात्मक कार्य के लिए Original, गैर-अंग्रेज़ी सामग्री के लिए Multilingual

  • संदर्भ ऑडियो की गुणवत्ता — सर्वश्रेष्ठ वॉइस क्लोनिंग परिणामों के लिए एक साफ़, बिना शोर का 10–30 सेकंड क्लिप उपयोग करें

  • Docker सेटअप — बेस इमेज pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, पोर्ट एक्सपोज़ करें 7860/http Gradio के लिए

  • मेमोरी प्रबंधन — कॉल करें torch.cuda.empty_cache() बड़े बैचों के बीच VRAM खाली करने के लिए

  • समर्थित भाषाएँ — ar, da, de, el, en, es, fi, fr, he, hi, it, ja, ko, ms, nl, no, pl, pt, ru, sv, sw, tr, zh

  • HuggingFace Space — किराये पर लेने से पहले यहाँ आज़माएँ huggingface.co/spaces/ResembleAI/Chatterboxarrow-up-right

समस्याओं का निवारण

समस्या
समाधान

CUDA में आउट ऑफ मेमोरी

Original/Multilingual (500M) के बजाय Turbo (350M) का उपयोग करें, या बड़ा GPU किराये पर लें

क्लोन की गई आवाज़ मेल नहीं खा रही

15–30s लंबा, साफ़ संदर्भ क्लिप उपयोग करें जिसमें पृष्ठभूमि शोर न्यूनतम हो

numpy संस्करण संघर्ष

चलाएँ pip install numpy==1.26.4 --force-reinstall

मॉडल डाउनलोड धीमा है

मॉडल पहली बार चलाने पर HuggingFace से लाए जाते हैं (~2 GB); पहले से डाउनलोड करने के लिए huggingface-cli

ऑडियो में कलाकृतियाँ हैं

प्रति जनरेशन टेक्स्ट लंबाई घटाएँ; बहुत लंबे टेक्स्ट गुणवत्ता को बिगाड़ सकते हैं

ModuleNotFoundError

सुनिश्चित करें pip install chatterbox-tts बिना त्रुटियों के पूरा हुआ; Python 3.11 संगतता जांचें

Last updated

Was this helpful?