> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/image-generation/hunyuan-image3.md).

# HunyuanImage 3.0

Tencent द्वारा HunyuanImage 3.0 है **दुनिया का सबसे बड़ा ओपन-सोर्स इमेज जनरेशन मॉडल** जिसमें कुल 80B पैरामीटर्स हैं (इन्फरेंस के दौरान 13B सक्रिय)। 26 जनवरी, 2026 को जारी किया गया, यह एक ही ऑटोरिग्रैसिव मॉडल में इमेज जनरेशन, एडिटिंग और समझ को एकीकृत करके रूढ़ि को तोड़ता है — अब टेक्स्ट-टू-इमेज और इमेज-टू-इमेज के लिए अलग पाइपलाइनों की जरूरत नहीं। यह फोटोरियलिस्टिक छवियाँ उत्पन्न करता है, सटीक तत्व-रक्षण संपादन करता है, स्टाइल ट्रांसफर संभालता है, और यहां तक कि मल्टी-इमेज फ्यूज़न भी करता है, वह भी एक ही मॉडल से।

**HuggingFace:** [tencent/HunyuanImage-3.0-Instruct](https://huggingface.co/tencent/HunyuanImage-3.0-Instruct) **GitHub:** [Tencent-Hunyuan/HunyuanImage-3.0](https://github.com/Tencent-Hunyuan/HunyuanImage-3.0) **लाइसेंस:** Tencent Hunyuan Community License (100M MAU के अंतर्गत शोध और वाणिज्यिक उपयोग के लिए मुफ्त)

## प्रमुख विशेषताएँ

* **कुल 80B / इन्फरेंस में 13B सक्रिय पैरामीटर्स** — सबसे बड़ा ओपन-सोर्स इमेज MoE मॉडल; प्रत्येक इन्फरेंस पर केवल 13B पैरामीटर्स सक्रिय होते हैं
* **एकीकृत मल्टीमोडल आर्किटेक्चर** — टेक्स्ट-टू-इमेज, इमेज एडिटिंग, स्टाइल ट्रांसफर और मल्टी-इमेज कंपोजिशन एक ही मॉडल में
* **निर्देश-आधारित संपादन** — प्राकृतिक भाषा में बताएं कि आप क्या बदलवाना चाहते हैं, अप्रभावित तत्वों को संरक्षित रखते हुए
* **डिस्टिल्ड चेकपॉइंट उपलब्ध** — `HunyuanImage-3.0-Instruct-Distil` तेज़ जनरेशन के लिए केवल 8 सैमपलिंग स्टेप्स में चलता है
* **vLLM एक्सेलेरेशन** — प्रोडक्शन में उल्लेखनीय रूप से तेज़ इन्फरेंस के लिए नेटिव vLLM समर्थन
* **ऑटोरिग्रैसिव फ्रेमवर्क** — DiT-आधारित मॉडलों (FLUX, SD3.5) के विपरीत, समझ और जनरेशन दोनों के लिए एकीकृत AR दृष्टिकोण का उपयोग करता है

## मॉडल वेरिएंट

| मॉडल                                 | उपयोग का मामला                         | स्टेप्स | HuggingFace                                |
| ------------------------------------ | -------------------------------------- | ------- | ------------------------------------------ |
| **HunyuanImage-3.0**                 | केवल टेक्स्ट-टू-इमेज                   | 30–50   | `tencent/HunyuanImage-3.0`                 |
| **HunyuanImage-3.0-Instruct**        | टेक्स्ट-टू-इमेज + एडिटिंग + मल्टी-इमेज | 30–50   | `tencent/HunyuanImage-3.0-Instruct`        |
| **HunyuanImage-3.0-Instruct-Distil** | तेज़ इन्फरेंस (8 स्टेप्स)              | 8       | `tencent/HunyuanImage-3.0-Instruct-Distil` |

## आवश्यकताएँ

| कॉन्फ़िगरेशन | सिंगल GPU (ऑफलोडिंग)      | अनुशंसित     | मल्टी-GPU प्रोडक्शन |
| ------------ | ------------------------- | ------------ | ------------------- |
| GPU          | 1× RTX 4090 24GB          | 1× A100 80GB | 2–3× A100 80GB      |
| VRAM         | 24GB (लेयर ऑफ़लोड के साथ) | 80GB         | 160–240GB           |
| RAM          | 128GB                     | 128GB        | 256GB               |
| डिस्क        | 200GB                     | 200GB        | 200GB               |
| CUDA         | 12.0+                     | 12.0+        | 12.0+               |

**अनुशंसित Clore.ai सेटअप:**

* **सर्वोत्तम मूल्य:** 1× A100 80GB (\~$2–4/दिन) — पूर्ण मॉडल को बिना ऑफ़लोडिंग के आराम से चलाता है
* **बजट विकल्प:** 1× RTX 4090 (\~$0.5–2/दिन) — CPU ऑफ़लोडिंग के साथ काम करता है (धीमा, पर कार्यशील)
* **फास्ट प्रोडक्शन:** 2× A100 80GB (\~$4–8/दिन) — बैच जनरेशन और Instruct मॉडल के लिए

## त्वरित प्रारम्भ

### इंस्टॉलेशन

```bash
# रिपोजिटरी क्लोन करें
git clone https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.git
cd HunyuanImage-3.0

# एनवायरनमेंट बनाएं
pip install -r requirements.txt
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

# मॉडल वेट्स डाउनलोड करें
huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/HunyuanImage-3-Instruct
```

### ट्रांसफॉर्मर्स के साथ टेक्स्ट-टू-इमेज

```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# मॉडल लोड करें (फुल प्रिसिशन के लिए ~80GB VRAM की आवश्यकता)
model_path = "./ckpts/HunyuanImage-3-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True,
)

# टेक्स्ट से एक इमेज जनरेट करें
prompt = "शांत जापानी उद्यान शरद ऋतु में, क्रिस्टल-सा साफ तालाब जिसमें कोइ मछलियाँ तैर रही हैं, सुनहरे मेपल पत्ते झर रहे हैं, वॉटरकलर पेंटिंग शैली"
output = model.generate_image(prompt, num_inference_steps=30)
output.save("japanese_garden.png")
```

### Gradio वेब इंटरफेस का उपयोग करना

सभी फीचर्स के साथ प्रयोग करने का सबसे आसान तरीका:

```bash
cd HunyuanImage-3.0

# Gradio इंस्टॉल करें
pip install gradio

# वेब इंटरफेस लॉन्च करें
python gradio_demo.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct \
    --server-name 0.0.0.0 \
    --server-port 7860
```

फिर SSH टनल के माध्यम से एक्सेस करें: `ssh -L 7860:localhost:7860 root@<clore-ip>`

## उपयोग के उदाहरण

### 1. टेक्स्ट-टू-इमेज जनरेशन (CLI)

```bash
cd HunyuanImage-3.0

python inference.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct \
    --prompt "रात में साइबरपंक सिटीस्केप, नीयन-प्रकाशित गगनचुंबी इमारतें बारिश-भिगी सड़कों में परावर्तित, उड़ने वाली कारें, वॉल्यूमेट्रिक कोहरा, 8K" \
    --output-path output.png \
    --num-inference-steps 30 \
    --guidance-scale 5.0
```

### 2. प्राकृतिक भाषा के साथ इमेज एडिटिंग

HunyuanImage 3.0 की एक प्रमुख विशेषता — मौजूदा छवियों को बदलाव बताकर एडिट करें:

```bash
python inference.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct \
    --prompt "मौसम को सर्दी में बदल दें और पेड़ों पर बर्फ छा जाए" \
    --image-path input_photo.jpg \
    --output-path edited_winter.png \
    --num-inference-steps 30
```

### 3. डिस्टिल्ड मॉडल के साथ तेज़ जनरेशन (8 स्टेप्स)

```bash
# डिस्टिल्ड चेकपॉइंट डाउनलोड करें
huggingface-cli download tencent/HunyuanImage-3.0-Instruct-Distil \
    --local-dir ./ckpts/HunyuanImage-3-Instruct-Distil

# केवल 8 स्टेप्स में जनरेट करें (5-6× तेज़)
python inference.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct-Distil \
    --prompt "मार्स पर घोड़े पर सवार एक अंतरिक्ष यात्री का पोर्ट्रेट, फोटोरियलिस्टिक" \
    --output-path astronaut.png \
    --num-inference-steps 8
```

## अन्य इमेज मॉडलों के साथ तुलना

| फ़ीचर              | HunyuanImage 3.0     | FLUX.2 Klein             | SD 3.5 Large           |
| ------------------ | -------------------- | ------------------------ | ---------------------- |
| पैरामीटर           | 80B MoE (13B सक्रिय) | 32B DiT                  | 8B DiT                 |
| आर्किटेक्चर        | ऑटोरिग्रैसिव MoE     | डिफ्यूज़न ट्रांसफॉर्मर   | डिफ्यूज़न ट्रांसफॉर्मर |
| इमेज एडिटिंग       | ✅ नेटिव              | ❌ ControlNet की आवश्यकता | ❌ img2img की आवश्यकता  |
| मल्टी-इमेज फ्यूज़न | ✅ नेटिव              | ❌                        | ❌                      |
| स्टाइल ट्रांसफर    | ✅ नेटिव              | ❌ LoRA की आवश्यकता       | ❌ LoRA की आवश्यकता     |
| न्यूनतम VRAM       | \~24GB (ऑफलोडेड)     | 16GB                     | 8GB                    |
| स्पीड (A100)       | \~15–30 सेकंड        | \~0.3 सेकंड              | \~5 सेकंड              |
| लाइसेंस            | Tencent समुदाय       | Apache 2.0               | Stability AI CL        |

## Clore.ai उपयोगकर्ताओं के लिए सुझाव

1. **गति के लिए डिस्टिल्ड मॉडल का उपयोग करें** — `HunyuanImage-3.0-Instruct-Distil` यह 30–50 के बजाय 8 स्टेप्स में जनरेट करता है, जिससे इन्फरेंस समय 4–6× घट जाता है। गुणवत्ता पूर्ण मॉडल के काफी करीबी बनी रहती है।
2. **A100 80GB सबसे उपयुक्त है** — एकल A100 80GB (\~$2–4/दिन Clore.ai पर) Instruct मॉडल को बिना किसी ऑफ़लोडिंग ट्रिक के चला देता है। यह CPU ऑफ़लोडिंग के साथ RTX 4090 की तुलना में बहुत तेज़ है।
3. **मॉडल पहले से डाउनलोड करें** — पूरा Instruct चेकपॉइंट \~160GB है। इसे एक पर्सिस्टेंट Clore.ai वॉल्यूम पर एक बार डाउनलोड करें ताकि हर बार नया इंस्टेंस उठाते समय दोबारा डाउनलोड न करना पड़े।
4. **Gradio के लिए SSH टनलिंग का उपयोग करें** — पोर्ट 7860 को सार्वजनिक रूप से उजागर न करें। उपयोग करें `ssh -L 7860:localhost:7860` ब्राउज़र से वेब इंटरफेस सुरक्षित तरीके से एक्सेस करने के लिए।
5. **बैच वर्क के लिए vLLM बैकएंड आजमाएं** — यदि आप कई छवियाँ जेनरेट कर रहे हैं, तो vLLM इन्फरेंस पाथ ( `vllm_infer/` फोल्डर) में काफी बेहतर थ्रूपुट प्रदान करता है।

## समस्याओं का निवारण

| समस्या                                     | समाधान                                                                                                                             |
| ------------------------------------------ | ---------------------------------------------------------------------------------------------------------------------------------- |
| `CUDA में आउट ऑफ मेमोरी` RTX 4090 पर       | उपयोग करें `device_map="auto"` CPU ऑफ़लोडिंग सक्षम करने के लिए, या Distil मॉडल पर स्विच करें                                       |
| डाउनलोड विफल / बहुत धीमा                   | सेट करें `HF_TOKEN` env वेरिएबल; उपयोग करें `huggingface-cli download` के साथ `--resume-download`                                  |
| HF मॉडल ID के द्वारा मॉडल लोड नहीं कर सकते | नाम में डॉट होने के कारण, पहले लोकली क्लोन करें: `huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/` |
| धुंधली या कम-गुणवत्ता आउटपुट               | बढ़ाएँ `--num-inference-steps` को 40–50 करें; बढ़ाएँ `--guidance-scale` को 7.0 पर                                                  |
| इमेज एडिटिंग निर्देशों की उपेक्षा करता है  | क्या बदलना है और क्या संरक्षित रखना है इसके बारे में विशिष्ट रहें; छोटे, स्पष्ट प्रॉम्प्ट का उपयोग करें                            |
| Gradio इंटरफेस शुरू नहीं होगा              | सुनिश्चित करें `gradio>=4.0` इंस्टॉल है; जांचें कि मॉडल पाथ सही निर्देशिका की ओर इशारा कर रहा है                                   |

## अधिक पढ़ने के लिए

* [GitHub रिपॉजिटरी](https://github.com/Tencent-Hunyuan/HunyuanImage-3.0) — आधिकारिक कोड, इन्फरेंस स्क्रिप्ट्स, Gradio डेमो
* [HunyuanImage 3.0-Instruct (HuggingFace)](https://huggingface.co/tencent/HunyuanImage-3.0-Instruct) — पूर्ण मॉडल वेट्स
* [डिस्टिल्ड चेकपॉइंट](https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil) — 8-स्टेप तेज़ इन्फरेंस
* [टेक्निकल रिपोर्ट (arXiv)](https://arxiv.org/pdf/2509.23951) — आर्किटेक्चर विवरण और बेंचमार्क
* [ComfyUI एकीकरण](https://github.com/bgreene2/ComfyUI-Hunyuan-Image-3) — कम्युनिटी ComfyUI कस्टम नोड


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/image-generation/hunyuan-image3.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
