For the complete documentation index, see llms.txt. This page is also available as Markdown.

Zonos TTS Voice Cloning

Clore.ai GPUs पर emotion और pitch control के साथ voice cloning के लिए Zyphra द्वारा Zonos TTS चलाएँ।

Zonos द्वारा Zyphra यह एक 0.4B-पैरामीटर ओपन-वेट टेक्स्ट-टू-स्पीच मॉडल है जिसे 200K+ घंटे के बहुभाषी स्पीच पर प्रशिक्षित किया गया है। यह केवल 2–30 सेकंड के संदर्भ ऑडियो से शून्य-शॉट वॉइस क्लोनिंग करता है और भावना, बोलने की गति, पिच परिवर्तन और ऑडियो गुणवत्ता पर सूक्ष्म नियंत्रण प्रदान करता है। आउटपुट उच्च-निष्ठा 44 kHz ऑडियो होता है। दो मॉडल वेरिएंट उपलब्ध हैं: ट्रांसफॉर्मर (सर्वोत्तम गुणवत्ता) और हाइब्रिड/मैम्बा (तेज़ इनफ़रेंस)।

GitHub: Zyphra/Zonos HuggingFace: Zyphra/Zonos-v0.1-transformer लाइसेंस: Apache 2.0

प्रमुख विशेषताएँ

  • 2–30 सेकंड से वॉइस क्लोनिंग — किसी फ़ाइन-ट्यूनिंग की आवश्यकता नहीं

  • 44 kHz उच्च-निष्ठा आउटपुट — स्टूडियो-ग्रेड ऑडियो गुणवत्ता

  • भावना नियंत्रण — 8D वेक्टर के माध्यम से खुशी, उदासी, क्रोध, भय, आश्चर्य, घृणा

  • बोलने की गति और पिच — स्वतंत्र सूक्ष्म नियंत्रण

  • ऑडियो प्रीफ़िक्स इनपुट — फुसफुसाहट और अन्य कठिन-से-क्लोन व्यवहार सक्षम करता है

  • बहुभाषी — अंग्रेजी, जापानी, चीनी, फ्रेंच, जर्मन

  • दो आर्किटेक्चर — ट्रांसफॉर्मर (गुणवत्ता) और हाइब्रिड/मैम्बा (गति, RTX 4090 पर ~2× रियल-टाइम)

  • Apache 2.0 — व्यक्तिगत और व्यावसायिक उपयोग के लिए मुफ्त

आवश्यकताएँ

घटक
न्यूनतम
अनुशंसित

GPU

RTX 3080 10 GB

RTX 4090 24 GB

VRAM

6 GB (ट्रांसफॉर्मर)

10 GB+

RAM

16 GB

32 GB

डिस्क

10 GB

20 GB

Python

3.10+

3.11

CUDA

11.8+

12.4

सिस्टम

espeak-ng

Clore.ai सिफारिश: RTX 3090 ($0.30–1.00/दिन) आरामदायक हेडरूम के लिए। RTX 4090 ($0.50–2.00/दिन) हाइब्रिड मॉडल और सबसे तेज़ इनफ़रेंस के लिए।

इंस्टॉलेशन

त्वरित प्रारम्भ

उपयोग के उदाहरण

इमोशन नियंत्रण

Zonos एक 8-आयामी भावना वेक्टर स्वीकार करता है: [खुशी, उदासी, घृणा, भय, आश्चर्य, क्रोध, अन्य, तटस्थ].

बोलने की गति और पिच नियंत्रण

Gradio वेब इंटरफेस

पोर्ट एक्सपोज़ करें 7860/http अपने Clore.ai ऑर्डर में और खोलें http_pub UI तक पहुँचने के लिए URL।

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  • मॉडल चयन — सर्वोत्तम गुणवत्ता के लिए ट्रांसफॉर्मर, ~2× तेज़ इनफ़रेंस के लिए हाइब्रिड (RTX 3000+ GPU आवश्यक)

  • संदर्भ ऑडियो — 10–30 सेकंड की साफ़ स्पीच सबसे अच्छे परिणाम देती है; छोटे क्लिप (2–5s) काम करते हैं लेकिन कम निष्ठा के साथ

  • Docker सेटअप — उपयोग करें pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, जोड़ें apt-get install -y espeak-ng स्टार्टअप में

  • पोर्ट मैपिंग — एक्सपोज़ करें 7860/http Gradio UI के लिए, 8000/http API सर्वर के लिए

  • सीड नियंत्रण — सेट करें torch.manual_seed() पुनरुत्पादन योग्य आउटपुट के लिए जनरेशन से पहले

  • ऑडियो गुणवत्ता पैरामीटर — साफ़ आउटपुट के लिए audio_quality कंडीशनिंग फ़ील्ड के साथ प्रयोग करें

समस्याओं का निवारण

समस्या
समाधान

espeak-ng नहीं मिला

चलाएँ apt-get install -y espeak-ng (फ़ोनेमीकरण के लिए आवश्यक)

CUDA में आउट ऑफ मेमोरी

ट्रांसफॉर्मर मॉडल का उपयोग करें (हाइब्रिड से छोटा); प्रति कॉल टेक्स्ट की लंबाई घटाएँ

हाइब्रिड मॉडल विफल होता है

Ampere+ GPU (RTX 3000 श्रृंखला या नया) और की आवश्यकता pip install -e ".[compile]"

क्लोन की गई आवाज़ अजीब लगती है

15–30s का लंबा संदर्भ क्लिप उपयोग करें जिसमें स्पष्ट स्पीच और न्यूनतम बैकग्राउंड शोर हो

धीमी जनरेशन

ट्रांसफॉर्मर के लिए सामान्य (~0.5× रियल-टाइम); हाइब्रिड RTX 4090 पर ~2× रियल-टाइम प्राप्त करता है

ModuleNotFoundError: zonos

सुनिश्चित करें कि आपने स्रोत से इंस्टॉल किया है: cd Zonos && pip install -e .

अंतिम अपडेट

क्या यह उपयोगी था?