XTTS (Coqui)

Coqui XTTS का उपयोग करके वॉइस क्लोनिंग के साथ प्राकृतिक स्पीच जनरेशन

Coqui XTTS का उपयोग करके आवाज़ क्लोनिंग के साथ प्राकृतिक भाषण उत्पन्न करें।

circle-check

CLORE.AI पर किराये पर लेना

  1. GPU प्रकार, VRAM, और मूल्य के अनुसार फ़िल्टर करें

  2. चुनें ऑन-डिमांड (निश्चित दर) या स्पॉट (बिड प्राइस)

  3. अपना ऑर्डर कॉन्फ़िगर करें:

    • Docker इमेज चुनें

    • पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)

    • यदि आवश्यक हो तो एनवायरनमेंट वेरिएबल जोड़ें

    • स्टार्टअप कमांड दर्ज करें

  4. भुगतान चुनें: CLORE, BTC, या USDT/USDC

  5. ऑर्डर बनाएं और डिप्लॉयमेंट का इंतज़ार करें

अपने सर्वर तक पहुँचें

  • कनेक्शन विवरण में खोजें मेरे ऑर्डर

  • वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें

  • SSH: ssh -p <port> root@<proxy-address>

XTTS क्या है?

XTTS (Coqui द्वारा) प्रदान करता है:

  • उच्च गुणवत्ता पाठ-से-वॉक

  • 6 सेकंड के ऑडियो से आवाज़ क्लोनिंग

  • 17 भाषाएँ समर्थित

  • भावनात्मक नियंत्रण

  • स्ट्रीमिंग समर्थन

आवश्यकताएँ

मोड
VRAM
अनुशंसित

इनफेरेन्स

4GB

RTX 3060

तेज़ निष्कर्षण

6GB

RTX 3080

स्ट्रीमिंग

4GB

RTX 3060

त्वरित तैनाती

Docker इमेज:

पोर्ट:

कमांड:

अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

  1. जाएँ मेरे ऑर्डर पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की बजाय localhost नीचे दिए उदाहरणों में।

इंस्टॉलेशन

मूल उपयोग

सरल TTS

वॉइस क्लोनिंग

एकाधिक भाषाएँ

समर्थित भाषाएँ

कोड
भाषा

en

अंग्रेज़ी

es

स्पेनिश

fr

फ़्रेंच

de

जर्मन

it

इतालवी

pt

पुर्तगाली

pl

पोलिश

tr

तुर्की

ru

रूसी

nl

डच

cs

चेकोस्लोवाकियाई

ar

अरबी

zh-cn

चीनी

ja

जापानी

hu

हंगेरियन

ko

कोरियाई

hi

हिन्दी

स्ट्रीमिंग TTS

Gradio इंटरफ़ेस

API सर्वर

बैच प्रोसेसिंग

वॉइस फाइन-ट्यूनिंग

बेहतर आवाज़ क्लोनिंग के लिए:

ऑडियो प्रीप्रोसेसिंग

प्रदर्शन

मोड
GPU
स्पीड

मानक

RTX 3060

~0.5x वास्तविक समय

मानक

RTX 4090

~2x वास्तविक समय

स्ट्रीमिंग

RTX 3060

~1x वास्तविक समय

स्ट्रीमिंग

RTX 4090

~3x वास्तविक समय

गुणवत्ता सुझाव

  • 6-15 सेकंड का साफ़ संदर्भ ऑडियो उपयोग करें

  • संदर्भ में पृष्ठभूमि शोर से बचें

  • टेक्स्ट और संदर्भ की भाषा मिलाएँ

  • बेहतर परिणामों के लिए कई संदर्भ नमूने उपयोग करें

समस्याओं का निवारण

खराब आवाज़ गुणवत्ता

  • साफ़ संदर्भ ऑडियो

  • लंबा संदर्भ (10+ सेकंड)

  • बोलने की शैली मिलाएँ

भाषा उच्चारण गलत

  • सही भाषा कोड सुनिश्चित करें

  • देशी वक्ता का संदर्भ उपयोग करें

धीमा जनरेशन

  • GPU निष्कर्षण सक्षम करें

  • स्ट्रीमिंग मोड उपयोग करें

  • प्रति कॉल टेक्स्ट की लंबाई कम करें

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

कीमतें प्रदाता और मांग के अनुसार बदलती हैं। जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड के लिए मार्केट (अक्सर 30-50% सस्ता)

  • भुगतान करें CLORE टोकन के साथ

  • विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

अगले कदम

Last updated

Was this helpful?