HunyuanImage 3.0
Clore.ai GPUs पर HunyuanImage 3.0 चलाएँ — Tencent का 80B MoE मल्टीमोडल इमेज जनरेशन और एडिटिंग मॉडल
Tencent द्वारा HunyuanImage 3.0 है दुनिया का सबसे बड़ा ओपन-सोर्स इमेज जनरेशन मॉडल जिसमें कुल 80B पैरामीटर्स हैं (इन्फरेंस के दौरान 13B सक्रिय)। 26 जनवरी, 2026 को जारी किया गया, यह एक ही ऑटोरिग्रैसिव मॉडल में इमेज जनरेशन, एडिटिंग और समझ को एकीकृत करके रूढ़ि को तोड़ता है — अब टेक्स्ट-टू-इमेज और इमेज-टू-इमेज के लिए अलग पाइपलाइनों की जरूरत नहीं। यह फोटोरियलिस्टिक छवियाँ उत्पन्न करता है, सटीक तत्व-रक्षण संपादन करता है, स्टाइल ट्रांसफर संभालता है, और यहां तक कि मल्टी-इमेज फ्यूज़न भी करता है, वह भी एक ही मॉडल से।
HuggingFace: tencent/HunyuanImage-3.0-Instruct GitHub: Tencent-Hunyuan/HunyuanImage-3.0 लाइसेंस: Tencent Hunyuan Community License (100M MAU के अंतर्गत शोध और वाणिज्यिक उपयोग के लिए मुफ्त)
प्रमुख विशेषताएँ
कुल 80B / इन्फरेंस में 13B सक्रिय पैरामीटर्स — सबसे बड़ा ओपन-सोर्स इमेज MoE मॉडल; प्रत्येक इन्फरेंस पर केवल 13B पैरामीटर्स सक्रिय होते हैं
एकीकृत मल्टीमोडल आर्किटेक्चर — टेक्स्ट-टू-इमेज, इमेज एडिटिंग, स्टाइल ट्रांसफर और मल्टी-इमेज कंपोजिशन एक ही मॉडल में
निर्देश-आधारित संपादन — प्राकृतिक भाषा में बताएं कि आप क्या बदलवाना चाहते हैं, अप्रभावित तत्वों को संरक्षित रखते हुए
डिस्टिल्ड चेकपॉइंट उपलब्ध —
HunyuanImage-3.0-Instruct-Distilतेज़ जनरेशन के लिए केवल 8 सैमपलिंग स्टेप्स में चलता हैvLLM एक्सेलेरेशन — प्रोडक्शन में उल्लेखनीय रूप से तेज़ इन्फरेंस के लिए नेटिव vLLM समर्थन
ऑटोरिग्रैसिव फ्रेमवर्क — DiT-आधारित मॉडलों (FLUX, SD3.5) के विपरीत, समझ और जनरेशन दोनों के लिए एकीकृत AR दृष्टिकोण का उपयोग करता है
मॉडल वेरिएंट
HunyuanImage-3.0
केवल टेक्स्ट-टू-इमेज
30–50
tencent/HunyuanImage-3.0
HunyuanImage-3.0-Instruct
टेक्स्ट-टू-इमेज + एडिटिंग + मल्टी-इमेज
30–50
tencent/HunyuanImage-3.0-Instruct
HunyuanImage-3.0-Instruct-Distil
तेज़ इन्फरेंस (8 स्टेप्स)
8
tencent/HunyuanImage-3.0-Instruct-Distil
आवश्यकताएँ
GPU
1× RTX 4090 24GB
1× A100 80GB
2–3× A100 80GB
VRAM
24GB (लेयर ऑफ़लोड के साथ)
80GB
160–240GB
RAM
128GB
128GB
256GB
डिस्क
200GB
200GB
200GB
CUDA
12.0+
12.0+
12.0+
अनुशंसित Clore.ai सेटअप:
सर्वोत्तम मूल्य: 1× A100 80GB (~$2–4/दिन) — पूर्ण मॉडल को बिना ऑफ़लोडिंग के आराम से चलाता है
बजट विकल्प: 1× RTX 4090 (~$0.5–2/दिन) — CPU ऑफ़लोडिंग के साथ काम करता है (धीमा, पर कार्यशील)
फास्ट प्रोडक्शन: 2× A100 80GB (~$4–8/दिन) — बैच जनरेशन और Instruct मॉडल के लिए
त्वरित प्रारम्भ
इंस्टॉलेशन
ट्रांसफॉर्मर्स के साथ टेक्स्ट-टू-इमेज
Gradio वेब इंटरफेस का उपयोग करना
सभी फीचर्स के साथ प्रयोग करने का सबसे आसान तरीका:
फिर SSH टनल के माध्यम से एक्सेस करें: ssh -L 7860:localhost:7860 root@<clore-ip>
उपयोग के उदाहरण
1. टेक्स्ट-टू-इमेज जनरेशन (CLI)
2. प्राकृतिक भाषा के साथ इमेज एडिटिंग
HunyuanImage 3.0 की एक प्रमुख विशेषता — मौजूदा छवियों को बदलाव बताकर एडिट करें:
3. डिस्टिल्ड मॉडल के साथ तेज़ जनरेशन (8 स्टेप्स)
अन्य इमेज मॉडलों के साथ तुलना
पैरामीटर
80B MoE (13B सक्रिय)
32B DiT
8B DiT
आर्किटेक्चर
ऑटोरिग्रैसिव MoE
डिफ्यूज़न ट्रांसफॉर्मर
डिफ्यूज़न ट्रांसफॉर्मर
इमेज एडिटिंग
✅ नेटिव
❌ ControlNet की आवश्यकता
❌ img2img की आवश्यकता
मल्टी-इमेज फ्यूज़न
✅ नेटिव
❌
❌
स्टाइल ट्रांसफर
✅ नेटिव
❌ LoRA की आवश्यकता
❌ LoRA की आवश्यकता
न्यूनतम VRAM
~24GB (ऑफलोडेड)
16GB
8GB
स्पीड (A100)
~15–30 सेकंड
~0.3 सेकंड
~5 सेकंड
लाइसेंस
Tencent समुदाय
Apache 2.0
Stability AI CL
Clore.ai उपयोगकर्ताओं के लिए सुझाव
गति के लिए डिस्टिल्ड मॉडल का उपयोग करें —
HunyuanImage-3.0-Instruct-Distilयह 30–50 के बजाय 8 स्टेप्स में जनरेट करता है, जिससे इन्फरेंस समय 4–6× घट जाता है। गुणवत्ता पूर्ण मॉडल के काफी करीबी बनी रहती है।A100 80GB सबसे उपयुक्त है — एकल A100 80GB (~$2–4/दिन Clore.ai पर) Instruct मॉडल को बिना किसी ऑफ़लोडिंग ट्रिक के चला देता है। यह CPU ऑफ़लोडिंग के साथ RTX 4090 की तुलना में बहुत तेज़ है।
मॉडल पहले से डाउनलोड करें — पूरा Instruct चेकपॉइंट ~160GB है। इसे एक पर्सिस्टेंट Clore.ai वॉल्यूम पर एक बार डाउनलोड करें ताकि हर बार नया इंस्टेंस उठाते समय दोबारा डाउनलोड न करना पड़े।
Gradio के लिए SSH टनलिंग का उपयोग करें — पोर्ट 7860 को सार्वजनिक रूप से उजागर न करें। उपयोग करें
ssh -L 7860:localhost:7860ब्राउज़र से वेब इंटरफेस सुरक्षित तरीके से एक्सेस करने के लिए।बैच वर्क के लिए vLLM बैकएंड आजमाएं — यदि आप कई छवियाँ जेनरेट कर रहे हैं, तो vLLM इन्फरेंस पाथ (
vllm_infer/फोल्डर) में काफी बेहतर थ्रूपुट प्रदान करता है।
समस्याओं का निवारण
CUDA में आउट ऑफ मेमोरी RTX 4090 पर
उपयोग करें device_map="auto" CPU ऑफ़लोडिंग सक्षम करने के लिए, या Distil मॉडल पर स्विच करें
डाउनलोड विफल / बहुत धीमा
सेट करें HF_TOKEN env वेरिएबल; उपयोग करें huggingface-cli download के साथ --resume-download
HF मॉडल ID के द्वारा मॉडल लोड नहीं कर सकते
नाम में डॉट होने के कारण, पहले लोकली क्लोन करें: huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/
धुंधली या कम-गुणवत्ता आउटपुट
बढ़ाएँ --num-inference-steps को 40–50 करें; बढ़ाएँ --guidance-scale को 7.0 पर
इमेज एडिटिंग निर्देशों की उपेक्षा करता है
क्या बदलना है और क्या संरक्षित रखना है इसके बारे में विशिष्ट रहें; छोटे, स्पष्ट प्रॉम्प्ट का उपयोग करें
Gradio इंटरफेस शुरू नहीं होगा
सुनिश्चित करें gradio>=4.0 इंस्टॉल है; जांचें कि मॉडल पाथ सही निर्देशिका की ओर इशारा कर रहा है
अधिक पढ़ने के लिए
GitHub रिपॉजिटरी — आधिकारिक कोड, इन्फरेंस स्क्रिप्ट्स, Gradio डेमो
HunyuanImage 3.0-Instruct (HuggingFace) — पूर्ण मॉडल वेट्स
डिस्टिल्ड चेकपॉइंट — 8-स्टेप तेज़ इन्फरेंस
टेक्निकल रिपोर्ट (arXiv) — आर्किटेक्चर विवरण और बेंचमार्क
ComfyUI एकीकरण — कम्युनिटी ComfyUI कस्टम नोड
Last updated
Was this helpful?