# HunyuanImage 3.0

HunyuanImage 3.0 von Tencent ist das **weltweit größte Open-Source-Bildgenerierungsmodell** mit insgesamt 80 Mrd. Parametern (13 Mrd. aktiv während der Inferenz). Veröffentlicht am 26. Januar 2026, bricht es mit Konventionen, indem es Bildgenerierung, -bearbeitung und -verständnis in einem einzigen autoregressiven Modell vereint — keine separaten Pipelines mehr für Text-zu-Bild und Bild-zu-Bild. Es erzeugt fotorealistische Bilder, führt präzise elementerhaltende Bearbeitungen durch, beherrscht Stilübertragungen und sogar Multibilderfusion, alles mit nur einem Modell.

**HuggingFace:** [tencent/HunyuanImage-3.0-Instruct](https://huggingface.co/tencent/HunyuanImage-3.0-Instruct) **GitHub:** [Tencent-Hunyuan/HunyuanImage-3.0](https://github.com/Tencent-Hunyuan/HunyuanImage-3.0) **Lizenz:** Tencent Hunyuan Community License (kostenlos für Forschung & kommerzielle Nutzung unter 100M MAU)

## Hauptmerkmale

* **80 Mrd. insgesamt / 13 Mrd. aktive Parameter** — größtes Open-Source-Bild-MoE-Modell; aktiviert pro Inferenz nur 13 Mrd. Parameter
* **Einheitliche multimodale Architektur** — Text-zu-Bild, Bildbearbeitung, Stiltransfer und Mehrbildkomposition in einem Modell
* **Anleitungsgetriebene Bearbeitung** — beschreibe in natürlicher Sprache, was du geändert haben möchtest, dabei werden unveränderte Elemente bewahrt
* **Verdichteter Checkpoint verfügbar** — `HunyuanImage-3.0-Instruct-Distil` läuft in nur 8 Sampling-Schritten für schnellere Generierung
* **vLLM-Beschleunigung** — native vLLM-Unterstützung für deutlich schnellere Inferenz in der Produktion
* **Autoregressives Framework** — im Gegensatz zu DiT-basierten Modellen (FLUX, SD3.5) verwendet es einen einheitlichen AR-Ansatz für Verständnis und Generierung

## Modellvarianten

| Modell                               | Einsatzgebiet                         | Schritte | HuggingFace                                |
| ------------------------------------ | ------------------------------------- | -------- | ------------------------------------------ |
| **HunyuanImage-3.0**                 | Nur Text-zu-Bild                      | 30–50    | `tencent/HunyuanImage-3.0`                 |
| **HunyuanImage-3.0-Instruct**        | Text-zu-Bild + Bearbeitung + Mehrbild | 30–50    | `tencent/HunyuanImage-3.0-Instruct`        |
| **HunyuanImage-3.0-Instruct-Distil** | Schnelle Inferenz (8 Schritte)        | 8        | `tencent/HunyuanImage-3.0-Instruct-Distil` |

## Anforderungen

| Konfiguration | Einzelne GPU (Offloading) | Empfohlen    | Multi-GPU Produktion |
| ------------- | ------------------------- | ------------ | -------------------- |
| GPU           | 1× RTX 4090 24GB          | 1× A100 80GB | 2–3× A100 80GB       |
| VRAM          | 24GB (mit Layer-Offload)  | 80GB         | 160–240GB            |
| RAM           | 128GB                     | 128GB        | 256GB                |
| Festplatte    | 200GB                     | 200GB        | 200GB                |
| CUDA          | 12.0+                     | 12.0+        | 12.0+                |

**Empfohlene Clore.ai-Konfiguration:**

* **Bestes Preis-Leistungs-Verhältnis:** 1× A100 80GB (\~$2–4/Tag) — läuft bequem mit dem vollständigen Modell ohne Offloading
* **Budget-Option:** 1× RTX 4090 (\~$0.5–2/Tag) — funktioniert mit CPU-Offloading (langsamer, aber funktionsfähig)
* **Schnelle Produktion:** 2× A100 80GB (\~$4–8/Tag) — für Batch-Generierung und das Instruct-Modell

## Schnellstart

### Installation

```bash
# Repository klonen
git clone https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.git
cd HunyuanImage-3.0

# Umgebung erstellen
pip install -r requirements.txt
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

# Modellgewichte herunterladen
huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/HunyuanImage-3-Instruct
```

### Text-zu-Bild mit Transformers

```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Modell laden (erfordert ~80GB VRAM für Vollpräzision)
model_path = "./ckpts/HunyuanImage-3-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True,
)

# Ein Bild aus Text erzeugen
prompt = "Ein ruhiger japanischer Garten im Herbst, Koi schwimmen in einem kristallklaren Teich, goldene Ahornblätter fallen, Aquarell-Malstil"
output = model.generate_image(prompt, num_inference_steps=30)
output.save("japanese_garden.png")
```

### Verwendung der Gradio-Weboberfläche

Die einfachste Möglichkeit, mit allen Funktionen zu experimentieren:

```bash
cd HunyuanImage-3.0

# Gradio installieren
pip install gradio

# Weboberfläche starten
python gradio_demo.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct \
    --server-name 0.0.0.0 \
    --server-port 7860
```

Dann über einen SSH-Tunnel zugreifen: `ssh -L 7860:localhost:7860 root@<clore-ip>`

## Beispielanwendungen

### 1. Text-zu-Bild-Generierung (CLI)

```bash
cd HunyuanImage-3.0

python inference.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct \
    --prompt "Cyberpunk-Stadtbild bei Nacht, neonbeleuchtete Wolkenkratzer spiegeln sich in regengetränkten Straßen, fliegende Autos, volumetrischer Nebel, 8K" \
    --output-path output.png \
    --num-inference-steps 30 \
    --guidance-scale 5.0
```

### 2. Bildbearbeitung mit natürlicher Sprache

Eine der herausragenden Funktionen von HunyuanImage 3.0 — bearbeite vorhandene Bilder, indem du die Änderungen beschreibst:

```bash
python inference.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct \
    --prompt "Ändere die Jahreszeit zu Winter mit Schnee, der die Bäume bedeckt" \
    --image-path input_photo.jpg \
    --output-path edited_winter.png \
    --num-inference-steps 30
```

### 3. Schnelle Generierung mit dem distillierten Modell (8 Schritte)

```bash
# Distillierten Checkpoint herunterladen
huggingface-cli download tencent/HunyuanImage-3.0-Instruct-Distil \
    --local-dir ./ckpts/HunyuanImage-3-Instruct-Distil

# Mit nur 8 Schritten generieren (5–6× schneller)
python inference.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct-Distil \
    --prompt "Porträt eines Astronauten, der auf einem Pferd auf dem Mars reitet, fotorealistisch" \
    --output-path astronaut.png \
    --num-inference-steps 8
```

## Vergleich mit anderen Bildmodellen

| Funktion               | HunyuanImage 3.0     | FLUX.2 Klein           | SD 3.5 Groß            |
| ---------------------- | -------------------- | ---------------------- | ---------------------- |
| Parameter              | 80B MoE (13B aktiv)  | 32B DiT                | 8B DiT                 |
| Architektur            | Autoregressives MoE  | Diffusions-Transformer | Diffusions-Transformer |
| Bildbearbeitung        | ✅ Native             | ❌ Benötigt ControlNet  | ❌ Benötigt img2img     |
| Mehrbildfusion         | ✅ Native             | ❌                      | ❌                      |
| Stiltransfer           | ✅ Native             | ❌ Benötigt LoRA        | ❌ Benötigt LoRA        |
| Min. VRAM              | \~24GB (ausgelagert) | 16GB                   | 8GB                    |
| Geschwindigkeit (A100) | \~15–30 Sek.         | \~0.3 Sek.             | \~5 Sek.               |
| Lizenz                 | Tencent-Community    | Apache 2.0             | Stability AI CL        |

## Tipps für Clore.ai-Nutzer

1. **Verwende das distillierte Modell für Geschwindigkeit** — `HunyuanImage-3.0-Instruct-Distil` generiert in 8 Schritten statt 30–50 und reduziert die Inferenzzeit um das 4–6-fache. Die Qualität bleibt überraschend nahe am vollständigen Modell.
2. **A100 80GB ist der Sweet Spot** — Eine einzelne A100 80GB (\~$2–4/Tag auf Clore.ai) betreibt das Instruct-Modell ohne Offloading-Tricks. Das ist deutlich schneller als eine RTX 4090 mit CPU-Offloading.
3. **Modelle vorab herunterladen** — Der vollständige Instruct-Checkpoint ist \~160GB. Lade ihn einmal auf ein persistenten Clore.ai-Volume herunter, um ein erneutes Herunterladen bei jedem Start einer neuen Instanz zu vermeiden.
4. **Verwende SSH-Tunneling für Gradio** — Setze Port 7860 nicht öffentlich aus. Verwende `ssh -L 7860:localhost:7860` um sicher aus deinem Browser auf die Weboberfläche zuzugreifen.
5. **Probiere das vLLM-Backend für Batch-Arbeiten** — Wenn du viele Bilder generierst, bietet der vLLM-Inferenzpfad (im `vllm_infer/` Ordner) deutlich bessere Durchsatzraten.

## Fehlerbehebung

| Problem                                        | Lösung                                                                                                                              |
| ---------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------- |
| `CUDA out of memory` auf RTX 4090              | Verwenden Sie `device_map="auto"` um CPU-Offloading zu aktivieren, oder wechsle zum Distil-Modell                                   |
| Download schlägt fehl / sehr langsam           | Setze `HF_TOKEN` als Umgebungsvariable; verwende `huggingface-cli download` mit `--resume-download`                                 |
| Kann Modell nicht über HF-Modell-ID laden      | Aufgrund des Punkts im Namen zuerst lokal klonen: `huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/` |
| Verschwommene oder niedrigqualitative Ausgaben | Erhöhen Sie `--num-inference-steps` auf 40–50; erhöhe `--guidance-scale` auf 7.0                                                    |
| Bildbearbeitung ignoriert Anweisungen          | Sei spezifisch darüber, was geändert und was erhalten werden soll; verwende kurze, klare Prompts                                    |
| Gradio-Oberfläche startet nicht                | Stelle sicher, dass `gradio>=4.0` installiert ist; überprüfe, dass der Modellpfad auf das richtige Verzeichnis zeigt                |

## Weiterführende Lektüre

* [GitHub-Repository](https://github.com/Tencent-Hunyuan/HunyuanImage-3.0) — Offizieller Code, Inferenzskripte, Gradio-Demo
* [HunyuanImage 3.0-Instruct (HuggingFace)](https://huggingface.co/tencent/HunyuanImage-3.0-Instruct) — Vollständige Modellgewichte
* [Distillierter Checkpoint](https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil) — 8-Schritt schnelle Inferenz
* [Technischer Bericht (arXiv)](https://arxiv.org/pdf/2509.23951) — Architekturdetails und Benchmarks
* [ComfyUI-Integration](https://github.com/bgreene2/ComfyUI-Hunyuan-Image-3) — Community ComfyUI benutzerdefinierter Knoten
