SadTalker

Clore.ai पर ऑडियो और इमेजेस से टॉकिंग हेड वीडियो बनाएं

ऑडियो के साथ चेहरों को एनिमेट करके वास्तविक दिखने वाले टॉकिंग हेड वीडियो बनाएं।

circle-check

CLORE.AI पर किराए पर लेना

  1. GPU प्रकार, VRAM और कीमत द्वारा फ़िल्टर करें

  2. चुनें ऑन-डिमांड (निर्धारित दर) या स्पॉट (बिड कीमत)

  3. अपना ऑर्डर कॉन्फ़िगर करें:

    • Docker इमेज चुनें

    • पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)

    • ज़रूरत होने पर पर्यावरण चर जोड़ें

    • स्टार्टअप कमांड दर्ज करें

  4. भुगतान चुनें: CLORE, BTC, या USDT/USDC

  5. ऑर्डर बनाएँ और डिप्लॉयमेंट की प्रतीक्षा करें

अपने सर्वर तक पहुँचें

  • कनेक्शन विवरण खोजें मेरे ऑर्डर्स

  • वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें

  • SSH: ssh -p <port> root@<proxy-address>

SadTalker क्या है?

SadTalker टॉकिंग वीडियो उत्पन्न करता है:

  • किसी भी ऑडियो से लिप-सिंक

  • प्राकृतिक सिर की हिलचाल

  • एकल छवि के साथ काम करता है

  • एक्सप्रेशन नियंत्रण

आवश्यकताएँ

मोड
VRAM
अनुशंसित

बेसिक

4GB

RTX 3060

उच्च गुणवत्ता

6GB

RTX 3080

पूरा चेहरा

8GB

RTX 4080

त्वरित डिप्लॉय

Docker इमेज:

पोर्ट्स:

कमांड:

अपनी सेवा तक पहुँच

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर्स:

  1. पर जाएँ मेरे ऑर्डर्स पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL के बजाय localhost नीचे दिए गए उदाहरणों में।

स्थापना

मूल उपयोग

कमान्ड लाइन

Python API

चेहरा सुधार के साथ

पैरामीटर

पोज़ स्टाइल्स

रेंज
प्रभाव

0-5

सूक्ष्म हिलचाल

6-20

सामान्य हिलचाल

21-46

अभिव्यक्तिपूर्ण हिलचाल

बैच प्रोसेसिंग

Gradio इंटरफ़ेस

API सर्वर

Text-to-Speech + SadTalker

पूर्ण पाइपलाइन:

एक्सप्रेशन नियंत्रण

गुणवत्ता सेटिंग्स

सेटिंग
स्पीड
गुणवत्ता

कोई एनहांसर नहीं, 256px

तेज़

बेसिक

GFPGAN, 256px

मध्यम

अच्छा

GFPGAN, 512px

धीमा

बेहतर

RealESRGAN, 512px

सबसे धीमा

सर्वोत्तम

पूर्व-प्रसंस्करण विकल्प

समस्या निवारण

चेहरा नहीं मिला

  • साफ, सामने वाला चेहरा उपयोग करें

  • अच्छी रोशनी

  • आवरण से बचें (चश्मा, बाल)

ऑडियो सिंक समस्याएं

  • 16kHz WAV फाइलें उपयोग करें

  • बैकग्राउंड संगीत से बचें

  • केवल स्पष्ट भाषण

कत्थई/टुकड़े-टुकड़े मूवमेंट

  • थोड़ा expression_scale बढ़ाएं

  • विभिन्न pose_style आज़माएं

  • लंबा ऑडियो उपयोग करें

आउट ऑफ़ मेमोरी

  • आउटपुट साइज कम करें

  • एनहांसर अक्षम करें

  • क्रॉप प्रीप्रोसेसिंग उपयोग करें

प्रदर्शन

रिज़ॉल्यूशन
GPU
समय (10s वीडियो)

256px

RTX 3060

~30s

256px

RTX 4090

~15s

512px + GFPGAN

RTX 4090

~45s

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

GPU
घंटा दर
दैनिक दर
4-घंटे सत्र

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

कीमतें प्रदाता और माँग के अनुसार बदलती हैं। वर्तमान दरों के लिए जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड के लिए मार्केट (अकसर 30-50% सस्ता)

  • के साथ भुगतान करें CLORE टोकन

  • विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

अगले कदम

  • Wav2Lip - वैकल्पिक लिप सिंक

  • Bark TTS - स्पीच जेनरेट करें

  • XTTS - वॉइस क्लोनिंग + TTS

Last updated

Was this helpful?