StyleTTS2

Clore.ai GPUs पर स्टाइल डिफ्यूज़न के माध्यम से मानव-स्तरीय टेक्स्ट-टू-स्पीच के लिए StyleTTS2 चलाएँ

StyleTTS2 LJSpeech और LibriTTS बेंचमार्क्स पर ग्राउंड-ट्रुथ रिकॉर्डिंग्स से ऊपर मानव-मूल्यांकित प्राकृतिकता स्कोर प्राप्त करता है (MOS 4.55 बनाम 4.23 ग्राउंड-ट्रुथ). यह उपयोग करता है स्टाइल डिफ्यूजन और विरोधी प्रशिक्षण बोलने की शैलियों को एक लातेंट वेरिएबल वितरण के रूप में मॉडल करने के लिए, जिससे अभिव्यक्तिपूर्ण संश्लेषण और एक छोटे संदर्भ क्लिप से ज़ीरो-शॉट स्पीकर अनुकूलन सक्षम होता है।

पारंपरिक TTS प्रणालियों के विपरीत, StyleTTS2 एक छोटे संदर्भ ऑडियो क्लिप के साथ अनदेखे वक्ताओं पर सामान्यीकरण कर सकता है, और ऐसा भाषण उत्पन्न करता है जो पेशेवर वॉइस एक्टर्स के समकक्ष है। इसे कई डेटासेट्स पर मानव-मूल्यांकित नैचुरलनेस स्कोर से अधिक प्रदर्शित करने के लिए बेंचमार्क किया गया है — ओपन-सोर्स TTS के लिए यह एक प्रथम उपलब्धि है।

मुख्य विशेषताएँ:

  • मानव-स्तरीय प्राकृतिकता — LJSpeech पर मानव MOS स्कोर से आगे

  • ज़ीरो-शॉट स्पीकर अनुकूलन — किसी भी आवाज़ को एक छोटे ऑडियो नमूने से क्लोन करें

  • स्टाइल डिफ्यूजन — अभिव्यक्तिपूर्ण, विविध प्रोसोडी और बोलने की शैली

  • मल्टि-स्पीकर समर्थन — LibriTTS (2,300+ स्पीकर्स) पर प्रशिक्षित

  • लाइटवेट इनफेरेंस — कंज्यूमर GPUs पर कुशलतापूर्वक चलाता है

circle-check

सर्वर आवश्यकताएँ

पैरामीटर
न्यूनतम
अनुशंसित

GPU

NVIDIA RTX 3070 (8 GB)

NVIDIA RTX 4090 (24 GB)

VRAM

6 GB

12–24 GB

RAM

16 GB

32 GB

CPU

4 कोर

8+ कोर

डिस्क

15 GB

30 GB

ऑपरेटिंग सिस्टम

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.7+

12.1+

Python

3.8+

3.10

पोर्ट्स

22, 7860

22, 7860

circle-info

StyleTTS2 अपेक्षाकृत हल्का है — एक RTX 3070 या 3080 वास्तविक-समय इनफेरेंस को आराम से संभालता है। बैच प्रोसेसिंग या समवर्ती उपयोगकर्ताओं की सेवा के लिए, 4090 या A100 का उपयोग करें।


CLORE.AI पर त्वरित तैनाती

StyleTTS2 को एक कस्टम Docker बिल्ड की आवश्यकता है क्योंकि कोई आधिकारिक प्री-बिल्ट इमेज उपलब्ध नहीं है। सेटअप में लगभग 10 मिनट लगते हैं।

1. एक उपयुक्त सर्वर खोजें

जाएँ CLORE.AI मार्केटप्लेसarrow-up-right और फ़िल्टर करें:

  • VRAM: ≥ 6 GB

  • GPU: RTX 3070, 3080, 3090, 4080, 4090, A100

  • डिस्क: ≥ 20 GB

2. अपनी तैनाती कॉन्फ़िगर करें

Docker इमेज (बेस):

पोर्ट मैपिंग्स:

स्टार्टअप कमांड:

3. इंटरफ़ेस तक पहुँचें


चरण-दर-चरण सेटअप

चरण 1: अपने सर्वर में SSH करें

चरण 2: सिस्टम निर्भरताएँ इंस्टॉल करें

चरण 3: StyleTTS2 रिपॉज़िटरी क्लोन करें

चरण 4: Python वर्चुअल एन्वायरनमेंट बनाएं

चरण 5: निर्भरताएँ इंस्टॉल करें

चरण 6: प्री-ट्रेंड मॉडल डाउनलोड करें

चरण 7: Dockerfile बनाएं और चलाएं

चरण 8: Gradio डेमो सीधे लॉन्च करें

पहुँच: http://<server-ip>:7860


उपयोग के उदाहरण

उदाहरण 1: Python API के माध्यम से बेसिक TTS


उदाहरण 2: ज़ीरो-शॉट वॉइस क्लोनिंग


उदाहरण 3: अभिव्यक्त स्टाइल नियंत्रण


उदाहरण 4: Gradio वेब इंटरफ़ेस


उदाहरण 5: बैच ऑडियोबुक जनरेशन


कॉन्फ़िगरेशन

config.yml प्रमुख पैरामीटर

इनफेरेंस पैरामीटर

पैरामीटर
रेंज
डिफ़ॉल्ट
प्रभाव

diffusion_steps

1–30

10

गुणवत्ता बनाम गति का समझौता

alpha

0.0–1.0

0.3

संदर्भ से ध्वनिक शैली का वजन

beta

0.0–1.0

0.7

संदर्भ से प्रोसोडिक शैली का वजन

embedding_scale

1.0–3.0

1.5

कुल शैली की तीव्रता

t

0.6–1.0

0.7

शोर स्तर (उच्च = अधिक विविधता)


प्रदर्शन सुझाव

1. डिफ्यूजन स्टेप्स को अनुकूलित करें

डिफ़ॉल्ट 10 स्टेप्स गुणवत्ता और गति का संतुलन करता है। रीयल-टाइम अनुप्रयोगों के लिए 5 स्टेप्स का उपयोग करें; अधिकतम गुणवत्ता के लिए 20–30 का उपयोग करें।

2. torch.compile का उपयोग करें (PyTorch 2.0+)

3. मिक्स्ड प्रिसिशन इनफेरेंस

4. एक साथ कई वाक्यों का बैच प्रोसेसिंग

GPU उपयोगिता अधिकतम करने और ओवरहेड कम करने के लिए संभव हो तो कई वाक्यों को एक साथ प्रोसेस करें।

5. संदर्भ स्पीकर एम्बेडिंग्स को कैश करें


समस्या निवारण

समस्या: espeak-ng नहीं मिला

समस्या: Phonemizer असफल है

समस्या: CUDA मेमोरी खत्म हो गई

समस्या: कम ऑडियो गुणवत्ता

  • बढ़ाएँ diffusion_steps to 15–20

  • सुनिश्चित करें कि संदर्भ ऑडियो साफ़ हो, न्यूनतम 16kHz

  • समायोजित करने का प्रयास करें alpha और beta पैरामीटर

  • लंबा संदर्भ ऑडियो क्लिप उपयोग करें (15–30 सेकंड)

समस्या: Hugging Face से मॉडल डाउनलोड विफल


Clore.ai GPU सिफारिशें

StyleTTS2 एक हल्का मॉडल है — LibriTTS चेकपॉइंट ~300MB है, मामूली GPUs पर भी इनफेरेंस तेज़ है।

GPU
VRAM
Clore.ai कीमत
इनफेरेंस स्पीड
माध्य/दिन

केवल CPU

आणविक गतिशीलता

~$0.02/घं

~0.5× वास्तविक-समय

डेवलपमेंट, परीक्षण

RTX 3090

24 GB

~$0.12/घंटा

~15× वास्तविक-समय

प्रोडक्शन API, वॉइस क्लोनिंग

RTX 4090

24 GB

~$0.70/घंटा

~25× वास्तविक-समय

उच्च समवर्तीता API

A100 40GB

40 GB

~$1.20/घंटा

~40× वास्तविक-समय

बड़े-बैच ऑडियोबुक जनरेशन

circle-info

RTX 3090 at ~$0.12/hr StyleTTS2 के लिए यह इष्टतम विकल्प है। मॉडल इतना छोटा है कि आप GPU समय पर लगभग कुछ भी खर्च नहीं करते — एक घंटे की संश्लिष्ट ऑडियो की लागत GPU किराये में $0.01 से कम आती है। ऑडियोबुक उत्पादन या वॉइस क्लोनिंग सेवाओं के लिए यह अत्यंत लागत-कुशल है।

ज़ीरो-शॉट वॉइस क्लोनिंग गुणवत्ता सुझाव: 22kHz या 24kHz पर 15–30 सेकंड का साफ़ संदर्भ ऑडियो प्रदान करें। स्टाइल डिफ्यूजन मॉड्यूल को बोलने की शैली, गति और प्रोसोडी को सटीक रूप से पकड़ने के लिए पर्याप्त ऑडियो की आवश्यकता होती है। शोरयुक्त या छोटे संदर्भ आउटपुट गुणवत्ता को काफी घटाते हैं।


लिंक

Last updated

Was this helpful?