HunyuanImage 3.0

Clore.ai GPUs पर HunyuanImage 3.0 चलाएँ — Tencent का 80B MoE मल्टीमोडल इमेज जनरेशन और एडिटिंग मॉडल

Tencent द्वारा HunyuanImage 3.0 है दुनिया का सबसे बड़ा ओपन-सोर्स इमेज जनरेशन मॉडल जिसमें कुल 80B पैरामीटर्स हैं (इन्फरेंस के दौरान 13B सक्रिय)। 26 जनवरी, 2026 को जारी किया गया, यह एक ही ऑटोरिग्रैसिव मॉडल में इमेज जनरेशन, एडिटिंग और समझ को एकीकृत करके रूढ़ि को तोड़ता है — अब टेक्स्ट-टू-इमेज और इमेज-टू-इमेज के लिए अलग पाइपलाइनों की जरूरत नहीं। यह फोटोरियलिस्टिक छवियाँ उत्पन्न करता है, सटीक तत्व-रक्षण संपादन करता है, स्टाइल ट्रांसफर संभालता है, और यहां तक कि मल्टी-इमेज फ्यूज़न भी करता है, वह भी एक ही मॉडल से।

HuggingFace: tencent/HunyuanImage-3.0-Instructarrow-up-right GitHub: Tencent-Hunyuan/HunyuanImage-3.0arrow-up-right लाइसेंस: Tencent Hunyuan Community License (100M MAU के अंतर्गत शोध और वाणिज्यिक उपयोग के लिए मुफ्त)

प्रमुख विशेषताएँ

  • कुल 80B / इन्फरेंस में 13B सक्रिय पैरामीटर्स — सबसे बड़ा ओपन-सोर्स इमेज MoE मॉडल; प्रत्येक इन्फरेंस पर केवल 13B पैरामीटर्स सक्रिय होते हैं

  • एकीकृत मल्टीमोडल आर्किटेक्चर — टेक्स्ट-टू-इमेज, इमेज एडिटिंग, स्टाइल ट्रांसफर और मल्टी-इमेज कंपोजिशन एक ही मॉडल में

  • निर्देश-आधारित संपादन — प्राकृतिक भाषा में बताएं कि आप क्या बदलवाना चाहते हैं, अप्रभावित तत्वों को संरक्षित रखते हुए

  • डिस्टिल्ड चेकपॉइंट उपलब्धHunyuanImage-3.0-Instruct-Distil तेज़ जनरेशन के लिए केवल 8 सैमपलिंग स्टेप्स में चलता है

  • vLLM एक्सेलेरेशन — प्रोडक्शन में उल्लेखनीय रूप से तेज़ इन्फरेंस के लिए नेटिव vLLM समर्थन

  • ऑटोरिग्रैसिव फ्रेमवर्क — DiT-आधारित मॉडलों (FLUX, SD3.5) के विपरीत, समझ और जनरेशन दोनों के लिए एकीकृत AR दृष्टिकोण का उपयोग करता है

मॉडल वेरिएंट

मॉडल
उपयोग का मामला
स्टेप्स
HuggingFace

HunyuanImage-3.0

केवल टेक्स्ट-टू-इमेज

30–50

tencent/HunyuanImage-3.0

HunyuanImage-3.0-Instruct

टेक्स्ट-टू-इमेज + एडिटिंग + मल्टी-इमेज

30–50

tencent/HunyuanImage-3.0-Instruct

HunyuanImage-3.0-Instruct-Distil

तेज़ इन्फरेंस (8 स्टेप्स)

8

tencent/HunyuanImage-3.0-Instruct-Distil

आवश्यकताएँ

कॉन्फ़िगरेशन
सिंगल GPU (ऑफलोडिंग)
अनुशंसित
मल्टी-GPU प्रोडक्शन

GPU

1× RTX 4090 24GB

1× A100 80GB

2–3× A100 80GB

VRAM

24GB (लेयर ऑफ़लोड के साथ)

80GB

160–240GB

RAM

128GB

128GB

256GB

डिस्क

200GB

200GB

200GB

CUDA

12.0+

12.0+

12.0+

अनुशंसित Clore.ai सेटअप:

  • सर्वोत्तम मूल्य: 1× A100 80GB (~$2–4/दिन) — पूर्ण मॉडल को बिना ऑफ़लोडिंग के आराम से चलाता है

  • बजट विकल्प: 1× RTX 4090 (~$0.5–2/दिन) — CPU ऑफ़लोडिंग के साथ काम करता है (धीमा, पर कार्यशील)

  • फास्ट प्रोडक्शन: 2× A100 80GB (~$4–8/दिन) — बैच जनरेशन और Instruct मॉडल के लिए

त्वरित प्रारम्भ

इंस्टॉलेशन

ट्रांसफॉर्मर्स के साथ टेक्स्ट-टू-इमेज

Gradio वेब इंटरफेस का उपयोग करना

सभी फीचर्स के साथ प्रयोग करने का सबसे आसान तरीका:

फिर SSH टनल के माध्यम से एक्सेस करें: ssh -L 7860:localhost:7860 root@<clore-ip>

उपयोग के उदाहरण

1. टेक्स्ट-टू-इमेज जनरेशन (CLI)

2. प्राकृतिक भाषा के साथ इमेज एडिटिंग

HunyuanImage 3.0 की एक प्रमुख विशेषता — मौजूदा छवियों को बदलाव बताकर एडिट करें:

3. डिस्टिल्ड मॉडल के साथ तेज़ जनरेशन (8 स्टेप्स)

अन्य इमेज मॉडलों के साथ तुलना

फ़ीचर
HunyuanImage 3.0
FLUX.2 Klein
SD 3.5 Large

पैरामीटर

80B MoE (13B सक्रिय)

32B DiT

8B DiT

आर्किटेक्चर

ऑटोरिग्रैसिव MoE

डिफ्यूज़न ट्रांसफॉर्मर

डिफ्यूज़न ट्रांसफॉर्मर

इमेज एडिटिंग

✅ नेटिव

❌ ControlNet की आवश्यकता

❌ img2img की आवश्यकता

मल्टी-इमेज फ्यूज़न

✅ नेटिव

स्टाइल ट्रांसफर

✅ नेटिव

❌ LoRA की आवश्यकता

❌ LoRA की आवश्यकता

न्यूनतम VRAM

~24GB (ऑफलोडेड)

16GB

8GB

स्पीड (A100)

~15–30 सेकंड

~0.3 सेकंड

~5 सेकंड

लाइसेंस

Tencent समुदाय

Apache 2.0

Stability AI CL

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  1. गति के लिए डिस्टिल्ड मॉडल का उपयोग करेंHunyuanImage-3.0-Instruct-Distil यह 30–50 के बजाय 8 स्टेप्स में जनरेट करता है, जिससे इन्फरेंस समय 4–6× घट जाता है। गुणवत्ता पूर्ण मॉडल के काफी करीबी बनी रहती है।

  2. A100 80GB सबसे उपयुक्त है — एकल A100 80GB (~$2–4/दिन Clore.ai पर) Instruct मॉडल को बिना किसी ऑफ़लोडिंग ट्रिक के चला देता है। यह CPU ऑफ़लोडिंग के साथ RTX 4090 की तुलना में बहुत तेज़ है।

  3. मॉडल पहले से डाउनलोड करें — पूरा Instruct चेकपॉइंट ~160GB है। इसे एक पर्सिस्टेंट Clore.ai वॉल्यूम पर एक बार डाउनलोड करें ताकि हर बार नया इंस्टेंस उठाते समय दोबारा डाउनलोड न करना पड़े।

  4. Gradio के लिए SSH टनलिंग का उपयोग करें — पोर्ट 7860 को सार्वजनिक रूप से उजागर न करें। उपयोग करें ssh -L 7860:localhost:7860 ब्राउज़र से वेब इंटरफेस सुरक्षित तरीके से एक्सेस करने के लिए।

  5. बैच वर्क के लिए vLLM बैकएंड आजमाएं — यदि आप कई छवियाँ जेनरेट कर रहे हैं, तो vLLM इन्फरेंस पाथ ( vllm_infer/ फोल्डर) में काफी बेहतर थ्रूपुट प्रदान करता है।

समस्याओं का निवारण

समस्या
समाधान

CUDA में आउट ऑफ मेमोरी RTX 4090 पर

उपयोग करें device_map="auto" CPU ऑफ़लोडिंग सक्षम करने के लिए, या Distil मॉडल पर स्विच करें

डाउनलोड विफल / बहुत धीमा

सेट करें HF_TOKEN env वेरिएबल; उपयोग करें huggingface-cli download के साथ --resume-download

HF मॉडल ID के द्वारा मॉडल लोड नहीं कर सकते

नाम में डॉट होने के कारण, पहले लोकली क्लोन करें: huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/

धुंधली या कम-गुणवत्ता आउटपुट

बढ़ाएँ --num-inference-steps को 40–50 करें; बढ़ाएँ --guidance-scale को 7.0 पर

इमेज एडिटिंग निर्देशों की उपेक्षा करता है

क्या बदलना है और क्या संरक्षित रखना है इसके बारे में विशिष्ट रहें; छोटे, स्पष्ट प्रॉम्प्ट का उपयोग करें

Gradio इंटरफेस शुरू नहीं होगा

सुनिश्चित करें gradio>=4.0 इंस्टॉल है; जांचें कि मॉडल पाथ सही निर्देशिका की ओर इशारा कर रहा है

अधिक पढ़ने के लिए

Last updated

Was this helpful?