Mochi-1 वीडियो
🆕 — 10–15s संदर्भ ऑडियो से 8+ भाषाओं में ज़ीरो-शॉट वॉइस क्लोनिंग — यह Genmo का ओपन-सोर्स 10-बिलियन पैरामीटर वीडियो जनरेशन मॉडल है जो भौतिक रूप से यथार्थवादी गति के साथ 848×480 @ 30fps आउटपुट उत्पन्न करता है। यह एक असममित डिफ्यूज़न ट्रांसफॉर्मर (AsymmDiT) आर्किटेक्चर का उपयोग करता है और गति सटीकता के मामले में उच्च-गुणवत्ता वाले ओपन-सोर्स वीडियो मॉडलों में शामिल है। व्यावसायिक API लागत के एक छोटे हिस्से में पेशेवर-ग्रेड वीडियो उत्पन्न करने के लिए इसे Clore.ai के GPU क्लाउड पर तैनात करें।
Mochi-1 क्या है?
Mochi-1 एक 10-बिलियन पैरामीटर वीडियो डिफ्यूज़न मॉडल है जिसे वीडियो निम्नलिखित गुणों के साथ उत्पन्न करने के लिए प्रशिक्षित किया गया है:
मुलायम, भौतिक रूप से यथार्थवादी गति
उच्च अस्थायी निरंतरता
प्रॉम्प्ट के प्रति मजबूत अनुगमन
848×480 रिज़ॉल्यूशन पर 30 fps
यह उपयोग करता है एक असममित डिफ्यूज़न ट्रांसफॉर्मर (AsymmDiT) आर्किटेक्चर — वीडियो और टेक्स्ट के लिए अलग- अलग एन्कोडर गहराई — जो बड़े पैमाने पर कुशल इंफेरेंस सक्षम करता है। वज़न Genmo Open Source License के तहत जारी किए गए हैं, शोध और वाणिज्यिक उपयोग के लिए निःशुल्क।
मॉडल मुख्य विशेषताएँ:
10B पैरामीटर
मूल 848×480 @ 30 fps आउटपुट
उच्च-गति सटीकता (समुदाय बेंचमार्क में शीर्ष रैंकिंग)
diffusers एकीकरण के साथ Hugging Face पर उपलब्ध
सरल इंटरैक्शन के लिए Gradio डेमो UI
पूर्व-आवश्यकताएँ
GPU VRAM
24 GB
40–80 GB
GPU
RTX 4090
A100 / H100
RAM
32 GB
64 GB
स्टोरेज
60 GB
100 GB
CUDA
11.8+
12.1+
Mochi-1 एक बड़ा मॉडल है (≈40 GB fp8 में / ≈80 GB bf16 में)। क्वांटाइज़ेशन के साथ एक ही RTX 4090 (24 GB) इसे चला सकता है। पूर्ण गुणवत्ता के लिए A100 40 GB या उससे बड़ा उपयोग करें। मल्टी-GPU सेटअप समर्थित हैं।
चरण 1 — Clore.ai पर एक GPU किराए पर लें
जाएँ clore.ai और साइन इन करें।
पर क्लिक करें मार्केटप्लेस और फ़िल्टर करें:
VRAM: ≥ 24 GB (RTX 4090 न्यूनतम, A100 की सिफारिश)
मल्टी-GPU के लिए: GPU गिनती ≥ 2 से फ़िल्टर करें
अपने सर्वर का चयन करें और क्लिक करें कॉन्फ़िगर.
Docker इमेज सेट करें
pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel(बेस इमेज — हम इसके भीतर Mochi इंस्टॉल करते हैं)।खुले पोर्ट सेट करें:
22(SSH) और7860(Gradio UI)।पर क्लिक करें किराए पर लें.
Clore.ai A100 40 GB इंस्टेंसों की सूची ~$0.60–$0.90/घंटा से शुरू करती है। Mochi-1 को पूर्ण गुणवत्ता पर चलाने के लिए यह सबसे लागत-कुशल विकल्प है।
धップ 2 — कस्टम Dockerfile
अपनी खुद की इमेज बनाएं या इसको उपयोग करें Dockerfile ताकि एक रेडी-टू-यूज़ Mochi-1 परिवेश बनाया जा सके:
इमेज बनाएं और Docker Hub पर पुश करें
लोकल रूप से इमेज बनाएं और इसे अपने Docker Hub अकाउंट पर पुश करें (बदलें YOUR_DOCKERHUB_USERNAME अपने वास्तविक उपयोगकर्ता नाम से):
फिर उपयोग करें YOUR_DOCKERHUB_USERNAME/mochi-1:latest Clore.ai में अपने Docker इमेज के रूप में।
Docker Hub पर Mochi-1 के लिए कोई आधिकारिक प्री-बिल्ट Docker इमेज नहीं है। आपको ऊपर दिए गए Dockerfile से बिल्ड करना होगा। वैकल्पिक रूप से, सीधे pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel को बेस इमेज के रूप में उपयोग करें और SSH के माध्यम से मैन्युअली सेटअप कमांड चलाएँ।
स्टेप 3 — SSH के जरिए कनेक्ट करें
एक बार आपका इंस्टेंस चलने लगे:
धप 4 — Mochi-1 वेट्स डाउनलोड करें
मॉडल वेट्स Hugging Face पर होस्ट किए गए हैं। उन्हें huggingface_hub CLI के माध्यम से डाउनलोड करें:
पूर्ण bf16 मॉडल लगभग 80 GB है। fp8 क्वांटाइज़्ड संस्करण ~40 GB है और CPU ऑफलोडिंग के साथ RTX 4090 (24 GB) पर चलता है। निर्दिष्ट करें --include "*fp8*" केवल क्वांटाइज़्ड वेट्स ही डाउनलोड करने के लिए।
वैकल्पिक: केवल fp8 क्वांटाइज़्ड वेट्स डाउनलोड करें
धप 5 — Gradio डेमो लॉन्च करें
Mochi-1 में आसान टेक्स्ट-टू-वीडियो जनरेशन के लिए एक Gradio वेब UI शामिल है:
लो-VRAM मोड के लिए (RTX 4090, 24 GB):
The --cpu_offload फ्लैग उपयोग में न होने पर मॉडेल लेयरों को CPU RAM में स्थानांतरित करता है, जिससे पीक VRAM लगभग 18–20 GB तक घट जाता है लेकिन जनरेशन लगभग 2× धीमा हो जाता है।
धप 6 — वेब UI तक पहुँच
अपने ब्राउज़र को खोलें और नेविगेट करें:
आप Mochi-1 Gradio इंटरफ़ेस देखेंगे जिसमें:
एक टेक्स्ट प्रॉम्प्ट इनपुट
जनरेशन सेटिंग्स (स्टेप्स, गाइडेंस स्केल, सीड)
वीडियो आउटपुट प्लेयर
धप 7 — अपना पहला वीडियो जनरेट करें
उदाहरण प्रॉम्प्ट्स
प्रकृति दृश्य:
एक्शन सीन:
Abstract/कलात्मक:
अनुशंसित सेटिंग्स
स्टेप्स
64
गाइडेंस स्केल
4.5
अवधि
5.1 सेकंड (डिफ़ॉल्ट)
रिज़ॉल्यूशन
848×480 (मूल)
जनरेशन समय GPU के अनुसार काफी बदलता है। एक A100 80 GB पर, 5-सेकंड का वीडियो लगभग 2–4 मिनटलेता है। RTX 4090 पर CPU ऑफलोड के साथ, अपेक्षा करें 8–15 मिनट.
Python API उपयोग
प्रोग्रामेटिक जनरेशन के लिए, diffusers पाइपलाइन का उपयोग करें:
बैच जनरेशन स्क्रिप्ट
मल्टी-GPU इंफेरेंस
कई GPUs के साथ तेज़ जनरेशन के लिए:
Clore.ai मल्टी-GPU सर्वर प्रदान करता है (2×, 4× RTX 4090 या A100)। 2× A100 80 GB के साथ, 5-सेकंड क्लिप के लिए जनरेशन समय 60 सेकंड से कम हो जाता है।
समस्या निवारण
CUDA मेमोरी खत्म (Out of Memory)
समाधान:
लॉन्च कमांड में जोड़ें
--cpu_offloadgradio कमांड मेंVAE slicing सक्षम करें:
pipe.enable_vae_slicing()कम करें
num_frames(84 के बजाय 24 आज़माएँ)bf16 के बजाय fp8 क्वांटाइज़्ड वेट्स का उपयोग करें
मॉडल लोडिंग धीमा है
समाधान: सुनिश्चित करें कि वेट्स तेज़ NVMe ड्राइव पर हैं, HDD पर नहीं। स्टोरेज स्पीड जांचें:
वीडियो आर्टिफैक्ट्स / अस्थायी झिलमिलाहट
समाधान:
इंफेरेंस स्टेप्स बढ़ाएँ (80–100 आज़माएँ)
गाइडेंस स्केल समायोजित करें (आमतौर पर 3.5–5.0 रेंज सबसे अच्छा)
पुनरुत्पादन और итरेशन के लिए एक विशिष्ट सीड का उपयोग करें
पोर्ट 7860 पहुँच योग्य नहीं है
जांचें कि पोर्ट Clore.ai में सही तरीके से खोला गया है और Gradio सर्वर 0.0.0.0:
लागत अनुमान
RTX 4090
24 GB
~$0.35/घंटा
~10–15 मिनट
A100 40GB
40 GB
~$0.70/घंटा
~3–5 मिनट
A100 80GB
80 GB
~$1.20/घंटा
~2–3 मिनट
2× A100 80GB
160 GB
~$2.20/घंटा
~60–90 सेकंड
Clore.ai GPU सिफारिशें
Mochi-1 VRAM-भुखा है — 10B पैरामीटर मॉडल के लिए सावधानीपूर्वक GPU चयन आवश्यक है।
RTX 4090
24 GB
~$0.70/घंटा
केवल fp8 क्वांटाइज़्ड
~10–15 मिनट
A100 40GB
40 GB
~$1.20/घंटा
bf16 अनुशंसित
~3–5 मिनट
A100 80GB
80 GB
~$2.00/घंटा
पूर्ण bf16, तेज
~2–3 मिनट
2× A100 80GB
160 GB
~$4.00/घंटा
टेनसर पैरेलल, सबसे तेज
~60–90 सेकंड
RTX 3090 (24GB) की सिफारिश नहीं की जाती — Mochi-1 fp8 मोड में न्यूनतम 24GB की आवश्यकता होती है और लगभग कोई हेडरूम नहीं छोड़ता। RTX 4090 (24GB) fp8 में काम करता है लेकिन लंबी सीक्वेंस पर अक्सर OOM होता है। विश्वसनीय परिणामों के लिए A100 40GB से शुरू करें।
गुणवत्ता के लिए सर्वोत्तम मूल्य: A100 40GB ~$1.20/घंटा पर 5-सेकंड क्लिप को 3–5 मिनट में जनरेट करता है। यह प्रति वीडियो क्लिप लगभग $0.08–0.10 है — जो Runway ML ($0.25–0.50/क्लिप) या Pika Labs की सदस्यताओं की तुलना में काफी सस्ता है।
उपयोगी संसाधन
Last updated
Was this helpful?