HunyuanImage 3.0

HunyuanImage 3.0 चलाएँ — Tencent का 80B MoE मल्टीमोडल इमेज जनरेशन और एडिटिंग मॉडल Clore.ai GPUs पर

Tencent द्वारा HunyuanImage 3.0 है दुनिया का सबसे बड़ा ओपन-सोर्स इमेज जनरेशन मॉडल जिसमें कुल 80B पैरामीटर्स हैं (इन्फरेंस के दौरान 13B सक्रिय)। 26 जनवरी, 2026 को जारी किया गया, यह एक ही ऑटोरिग्रैसिव मॉडल में इमेज जनरेशन, एडिटिंग और समझ को एकीकृत करके रूढ़ि को तोड़ता है — अब टेक्स्ट-टू-इमेज और इमेज-टू-इमेज के लिए अलग पाइपलाइनों की जरूरत नहीं। यह फोटोरियलिस्टिक छवियाँ उत्पन्न करता है, सटीक तत्व-रक्षण संपादन करता है, स्टाइल ट्रांसफर संभालता है, और यहां तक कि मल्टी-इमेज फ्यूज़न भी करता है, वह भी एक ही मॉडल से।

HuggingFace: tencent/HunyuanImage-3.0-Instruct GitHub: Tencent-Hunyuan/HunyuanImage-3.0 लाइसेंस: Tencent Hunyuan Community License (100M MAU के अंतर्गत शोध और वाणिज्यिक उपयोग के लिए मुफ्त)

प्रमुख विशेषताएँ

कुल 80B / इन्फरेंस में 13B सक्रिय पैरामीटर्स — सबसे बड़ा ओपन-सोर्स इमेज MoE मॉडल; प्रत्येक इन्फरेंस पर केवल 13B पैरामीटर्स सक्रिय होते हैं
एकीकृत मल्टीमोडल आर्किटेक्चर — टेक्स्ट-टू-इमेज, इमेज एडिटिंग, स्टाइल ट्रांसफर और मल्टी-इमेज कंपोजिशन एक ही मॉडल में
निर्देश-आधारित संपादन — प्राकृतिक भाषा में बताएं कि आप क्या बदलवाना चाहते हैं, अप्रभावित तत्वों को संरक्षित रखते हुए
डिस्टिल्ड चेकपॉइंट उपलब्ध — HunyuanImage-3.0-Instruct-Distil तेज़ जनरेशन के लिए केवल 8 सैमपलिंग स्टेप्स में चलता है
vLLM एक्सेलेरेशन — प्रोडक्शन में उल्लेखनीय रूप से तेज़ इन्फरेंस के लिए नेटिव vLLM समर्थन
ऑटोरिग्रैसिव फ्रेमवर्क — DiT-आधारित मॉडलों (FLUX, SD3.5) के विपरीत, समझ और जनरेशन दोनों के लिए एकीकृत AR दृष्टिकोण का उपयोग करता है

मॉडल वेरिएंट

मॉडल

उपयोग का मामला

स्टेप्स

HuggingFace

HunyuanImage-3.0

केवल टेक्स्ट-टू-इमेज

30–50

tencent/HunyuanImage-3.0

HunyuanImage-3.0-Instruct

टेक्स्ट-टू-इमेज + एडिटिंग + मल्टी-इमेज

30–50

tencent/HunyuanImage-3.0-Instruct

HunyuanImage-3.0-Instruct-Distil

तेज़ इन्फरेंस (8 स्टेप्स)

tencent/HunyuanImage-3.0-Instruct-Distil

आवश्यकताएँ

कॉन्फ़िगरेशन

सिंगल GPU (ऑफलोडिंग)

अनुशंसित

मल्टी-GPU प्रोडक्शन

GPU

1× RTX 4090 24GB

1× A100 80GB

2–3× A100 80GB

VRAM

24GB (लेयर ऑफ़लोड के साथ)

80GB

160–240GB

RAM

128GB

256GB

डिस्क

200GB

CUDA

12.0+

अनुशंसित Clore.ai सेटअप:

सर्वोत्तम मूल्य: 1× A100 80GB (~$2–4/दिन) — पूर्ण मॉडल को बिना ऑफ़लोडिंग के आराम से चलाता है
बजट विकल्प: 1× RTX 4090 (~$0.5–2/दिन) — CPU ऑफ़लोडिंग के साथ काम करता है (धीमा, पर कार्यशील)
फास्ट प्रोडक्शन: 2× A100 80GB (~$4–8/दिन) — बैच जनरेशन और Instruct मॉडल के लिए

त्वरित प्रारम्भ

इंस्टॉलेशन

# रिपोजिटरी क्लोन करें
git clone https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.git
cd HunyuanImage-3.0

# एनवायरनमेंट बनाएं
pip install -r requirements.txt
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

# मॉडल वेट्स डाउनलोड करें
huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/HunyuanImage-3-Instruct

ट्रांसफॉर्मर्स के साथ टेक्स्ट-टू-इमेज

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# मॉडल लोड करें (फुल प्रिसिशन के लिए ~80GB VRAM की आवश्यकता)
model_path = "./ckpts/HunyuanImage-3-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True,
)

# टेक्स्ट से एक इमेज जनरेट करें
prompt = "शांत जापानी उद्यान शरद ऋतु में, क्रिस्टल-सा साफ तालाब जिसमें कोइ मछलियाँ तैर रही हैं, सुनहरे मेपल पत्ते झर रहे हैं, वॉटरकलर पेंटिंग शैली"
output = model.generate_image(prompt, num_inference_steps=30)
output.save("japanese_garden.png")

Gradio वेब इंटरफेस का उपयोग करना

सभी फीचर्स के साथ प्रयोग करने का सबसे आसान तरीका:

cd HunyuanImage-3.0

# Gradio इंस्टॉल करें
pip install gradio

# वेब इंटरफेस लॉन्च करें
python gradio_demo.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct \
    --server-name 0.0.0.0 \
    --server-port 7860

फिर SSH टनल के माध्यम से एक्सेस करें: ssh -L 7860:localhost:7860 root@<clore-ip>

उपयोग के उदाहरण

1. टेक्स्ट-टू-इमेज जनरेशन (CLI)

cd HunyuanImage-3.0

python inference.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct \
    --prompt "रात में साइबरपंक सिटीस्केप, नीयन-प्रकाशित गगनचुंबी इमारतें बारिश-भिगी सड़कों में परावर्तित, उड़ने वाली कारें, वॉल्यूमेट्रिक कोहरा, 8K" \
    --output-path output.png \
    --num-inference-steps 30 \
    --guidance-scale 5.0

2. प्राकृतिक भाषा के साथ इमेज एडिटिंग

HunyuanImage 3.0 की एक प्रमुख विशेषता — मौजूदा छवियों को बदलाव बताकर एडिट करें:

python inference.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct \
    --prompt "मौसम को सर्दी में बदल दें और पेड़ों पर बर्फ छा जाए" \
    --image-path input_photo.jpg \
    --output-path edited_winter.png \
    --num-inference-steps 30

3. डिस्टिल्ड मॉडल के साथ तेज़ जनरेशन (8 स्टेप्स)

# डिस्टिल्ड चेकपॉइंट डाउनलोड करें
huggingface-cli download tencent/HunyuanImage-3.0-Instruct-Distil \
    --local-dir ./ckpts/HunyuanImage-3-Instruct-Distil

# केवल 8 स्टेप्स में जनरेट करें (5-6× तेज़)
python inference.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct-Distil \
    --prompt "मार्स पर घोड़े पर सवार एक अंतरिक्ष यात्री का पोर्ट्रेट, फोटोरियलिस्टिक" \
    --output-path astronaut.png \
    --num-inference-steps 8

अन्य इमेज मॉडलों के साथ तुलना

फ़ीचर

HunyuanImage 3.0

FLUX.2 Klein

SD 3.5 Large

पैरामीटर

80B MoE (13B सक्रिय)

32B DiT

8B DiT

आर्किटेक्चर

ऑटोरिग्रैसिव MoE

डिफ्यूज़न ट्रांसफॉर्मर

इमेज एडिटिंग

✅ नेटिव

❌ ControlNet की आवश्यकता

❌ img2img की आवश्यकता

मल्टी-इमेज फ्यूज़न

✅ नेटिव

❌

स्टाइल ट्रांसफर

✅ नेटिव

❌ LoRA की आवश्यकता

न्यूनतम VRAM

~24GB (ऑफलोडेड)

16GB

8GB

स्पीड (A100)

~15–30 सेकंड

~0.3 सेकंड

~5 सेकंड

लाइसेंस

Tencent समुदाय

Apache 2.0

Stability AI CL

Clore.ai उपयोगकर्ताओं के लिए सुझाव

गति के लिए डिस्टिल्ड मॉडल का उपयोग करें — HunyuanImage-3.0-Instruct-Distil यह 30–50 के बजाय 8 स्टेप्स में जनरेट करता है, जिससे इन्फरेंस समय 4–6× घट जाता है। गुणवत्ता पूर्ण मॉडल के काफी करीबी बनी रहती है।
A100 80GB सबसे उपयुक्त है — एकल A100 80GB (~$2–4/दिन Clore.ai पर) Instruct मॉडल को बिना किसी ऑफ़लोडिंग ट्रिक के चला देता है। यह CPU ऑफ़लोडिंग के साथ RTX 4090 की तुलना में बहुत तेज़ है।
मॉडल पहले से डाउनलोड करें — पूरा Instruct चेकपॉइंट ~160GB है। इसे एक पर्सिस्टेंट Clore.ai वॉल्यूम पर एक बार डाउनलोड करें ताकि हर बार नया इंस्टेंस उठाते समय दोबारा डाउनलोड न करना पड़े।
Gradio के लिए SSH टनलिंग का उपयोग करें — पोर्ट 7860 को सार्वजनिक रूप से उजागर न करें। उपयोग करें ssh -L 7860:localhost:7860 ब्राउज़र से वेब इंटरफेस सुरक्षित तरीके से एक्सेस करने के लिए।
बैच वर्क के लिए vLLM बैकएंड आजमाएं — यदि आप कई छवियाँ जेनरेट कर रहे हैं, तो vLLM इन्फरेंस पाथ ( vllm_infer/ फोल्डर) में काफी बेहतर थ्रूपुट प्रदान करता है।

समस्याओं का निवारण

समस्या

समाधान

CUDA में आउट ऑफ मेमोरी RTX 4090 पर

उपयोग करें device_map="auto" CPU ऑफ़लोडिंग सक्षम करने के लिए, या Distil मॉडल पर स्विच करें

डाउनलोड विफल / बहुत धीमा

सेट करें HF_TOKEN env वेरिएबल; उपयोग करें huggingface-cli download के साथ --resume-download

HF मॉडल ID के द्वारा मॉडल लोड नहीं कर सकते

नाम में डॉट होने के कारण, पहले लोकली क्लोन करें: huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/

धुंधली या कम-गुणवत्ता आउटपुट

बढ़ाएँ --num-inference-steps को 40–50 करें; बढ़ाएँ --guidance-scale को 7.0 पर

इमेज एडिटिंग निर्देशों की उपेक्षा करता है

क्या बदलना है और क्या संरक्षित रखना है इसके बारे में विशिष्ट रहें; छोटे, स्पष्ट प्रॉम्प्ट का उपयोग करें

Gradio इंटरफेस शुरू नहीं होगा

सुनिश्चित करें gradio>=4.0 इंस्टॉल है; जांचें कि मॉडल पाथ सही निर्देशिका की ओर इशारा कर रहा है

अधिक पढ़ने के लिए

GitHub रिपॉजिटरी — आधिकारिक कोड, इन्फरेंस स्क्रिप्ट्स, Gradio डेमो
HunyuanImage 3.0-Instruct (HuggingFace) — पूर्ण मॉडल वेट्स
डिस्टिल्ड चेकपॉइंट — 8-स्टेप तेज़ इन्फरेंस
टेक्निकल रिपोर्ट (arXiv) — आर्किटेक्चर विवरण और बेंचमार्क
ComfyUI एकीकरण — कम्युनिटी ComfyUI कस्टम नोड

PreviousFLUX.2 Klein NextInvokeAI

Last updated 21 days ago

Was this helpful?

hashtagप्रमुख विशेषताएँ

hashtagमॉडल वेरिएंट

hashtagआवश्यकताएँ

hashtagत्वरित प्रारम्भ

hashtagइंस्टॉलेशन

hashtagट्रांसफॉर्मर्स के साथ टेक्स्ट-टू-इमेज

hashtagGradio वेब इंटरफेस का उपयोग करना

hashtagउपयोग के उदाहरण

hashtag1. टेक्स्ट-टू-इमेज जनरेशन (CLI)

hashtag2. प्राकृतिक भाषा के साथ इमेज एडिटिंग

hashtag3. डिस्टिल्ड मॉडल के साथ तेज़ जनरेशन (8 स्टेप्स)

hashtagअन्य इमेज मॉडलों के साथ तुलना

hashtagClore.ai उपयोगकर्ताओं के लिए सुझाव

hashtagसमस्याओं का निवारण

hashtagअधिक पढ़ने के लिए

प्रमुख विशेषताएँ

मॉडल वेरिएंट

आवश्यकताएँ

त्वरित प्रारम्भ

इंस्टॉलेशन

ट्रांसफॉर्मर्स के साथ टेक्स्ट-टू-इमेज

Gradio वेब इंटरफेस का उपयोग करना

उपयोग के उदाहरण

1. टेक्स्ट-टू-इमेज जनरेशन (CLI)

2. प्राकृतिक भाषा के साथ इमेज एडिटिंग

3. डिस्टिल्ड मॉडल के साथ तेज़ जनरेशन (8 स्टेप्स)

अन्य इमेज मॉडलों के साथ तुलना

Clore.ai उपयोगकर्ताओं के लिए सुझाव

समस्याओं का निवारण

अधिक पढ़ने के लिए