HunyuanImage 3.0

HunyuanImage 3.0 ausführen — Tencents 80B MoE multimodales Bildgenerations‑ und Bearbeitungsmodell auf Clore.ai‑GPUs

HunyuanImage 3.0 von Tencent ist das weltweit größte Open-Source-Bildgenerierungsmodell mit insgesamt 80 Mrd. Parametern (13 Mrd. aktiv während der Inferenz). Veröffentlicht am 26. Januar 2026, bricht es mit Konventionen, indem es Bildgenerierung, -bearbeitung und -verständnis in einem einzigen autoregressiven Modell vereint — keine separaten Pipelines mehr für Text-zu-Bild und Bild-zu-Bild. Es erzeugt fotorealistische Bilder, führt präzise elementerhaltende Bearbeitungen durch, beherrscht Stilübertragungen und sogar Multibilderfusion, alles mit nur einem Modell.

HuggingFace: tencent/HunyuanImage-3.0-Instruct GitHub: Tencent-Hunyuan/HunyuanImage-3.0 Lizenz: Tencent Hunyuan Community License (kostenlos für Forschung & kommerzielle Nutzung unter 100M MAU)

Hauptmerkmale

80 Mrd. insgesamt / 13 Mrd. aktive Parameter — größtes Open-Source-Bild-MoE-Modell; aktiviert pro Inferenz nur 13 Mrd. Parameter
Einheitliche multimodale Architektur — Text-zu-Bild, Bildbearbeitung, Stiltransfer und Mehrbildkomposition in einem Modell
Anleitungsgetriebene Bearbeitung — beschreibe in natürlicher Sprache, was du geändert haben möchtest, dabei werden unveränderte Elemente bewahrt
Verdichteter Checkpoint verfügbar — HunyuanImage-3.0-Instruct-Distil läuft in nur 8 Sampling-Schritten für schnellere Generierung
vLLM-Beschleunigung — native vLLM-Unterstützung für deutlich schnellere Inferenz in der Produktion
Autoregressives Framework — im Gegensatz zu DiT-basierten Modellen (FLUX, SD3.5) verwendet es einen einheitlichen AR-Ansatz für Verständnis und Generierung

Modellvarianten

Modell

Einsatzgebiet

Schritte

HuggingFace

HunyuanImage-3.0

Nur Text-zu-Bild

30–50

tencent/HunyuanImage-3.0

HunyuanImage-3.0-Instruct

Text-zu-Bild + Bearbeitung + Mehrbild

30–50

tencent/HunyuanImage-3.0-Instruct

HunyuanImage-3.0-Instruct-Distil

Schnelle Inferenz (8 Schritte)

tencent/HunyuanImage-3.0-Instruct-Distil

Anforderungen

Konfiguration

Einzelne GPU (Offloading)

Schnellstart

Installation

# Repository klonen
git clone https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.git
cd HunyuanImage-3.0

# Umgebung erstellen
pip install -r requirements.txt
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

# Modellgewichte herunterladen
huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/HunyuanImage-3-Instruct

Text-zu-Bild mit Transformers

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Modell laden (erfordert ~80GB VRAM für Vollpräzision)
model_path = "./ckpts/HunyuanImage-3-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True,
)

# Ein Bild aus Text erzeugen
prompt = "Ein ruhiger japanischer Garten im Herbst, Koi schwimmen in einem kristallklaren Teich, goldene Ahornblätter fallen, Aquarell-Malstil"
output = model.generate_image(prompt, num_inference_steps=30)
output.save("japanese_garden.png")

Verwendung der Gradio-Weboberfläche

Die einfachste Möglichkeit, mit allen Funktionen zu experimentieren:

cd HunyuanImage-3.0

# Gradio installieren
pip install gradio

# Weboberfläche starten
python gradio_demo.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct \
    --server-name 0.0.0.0 \
    --server-port 7860

Dann über einen SSH-Tunnel zugreifen: ssh -L 7860:localhost:7860 root@<clore-ip>

Beispielanwendungen

1. Text-zu-Bild-Generierung (CLI)

cd HunyuanImage-3.0

python inference.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct \
    --prompt "Cyberpunk-Stadtbild bei Nacht, neonbeleuchtete Wolkenkratzer spiegeln sich in regengetränkten Straßen, fliegende Autos, volumetrischer Nebel, 8K" \
    --output-path output.png \
    --num-inference-steps 30 \
    --guidance-scale 5.0

2. Bildbearbeitung mit natürlicher Sprache

Eine der herausragenden Funktionen von HunyuanImage 3.0 — bearbeite vorhandene Bilder, indem du die Änderungen beschreibst:

python inference.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct \
    --prompt "Ändere die Jahreszeit zu Winter mit Schnee, der die Bäume bedeckt" \
    --image-path input_photo.jpg \
    --output-path edited_winter.png \
    --num-inference-steps 30

3. Schnelle Generierung mit dem distillierten Modell (8 Schritte)

# Distillierten Checkpoint herunterladen
huggingface-cli download tencent/HunyuanImage-3.0-Instruct-Distil \
    --local-dir ./ckpts/HunyuanImage-3-Instruct-Distil

# Mit nur 8 Schritten generieren (5–6× schneller)
python inference.py \
    --model-path ./ckpts/HunyuanImage-3-Instruct-Distil \
    --prompt "Porträt eines Astronauten, der auf einem Pferd auf dem Mars reitet, fotorealistisch" \
    --output-path astronaut.png \
    --num-inference-steps 8

Vergleich mit anderen Bildmodellen

Funktion

HunyuanImage 3.0

FLUX.2 Klein

SD 3.5 Groß

Parameter

80B MoE (13B aktiv)

32B DiT

8B DiT

Architektur

Autoregressives MoE

Diffusions-Transformer

Bildbearbeitung

✅ Native

❌ Benötigt ControlNet

❌ Benötigt img2img

Mehrbildfusion

✅ Native

❌

Stiltransfer

✅ Native

❌ Benötigt LoRA

Min. VRAM

~24GB (ausgelagert)

16GB

8GB

Geschwindigkeit (A100)

~15–30 Sek.

~0.3 Sek.

~5 Sek.

Lizenz

Tencent-Community

Apache 2.0

Stability AI CL

Tipps für Clore.ai-Nutzer

Verwende das distillierte Modell für Geschwindigkeit — HunyuanImage-3.0-Instruct-Distil generiert in 8 Schritten statt 30–50 und reduziert die Inferenzzeit um das 4–6-fache. Die Qualität bleibt überraschend nahe am vollständigen Modell.
A100 80GB ist der Sweet Spot — Eine einzelne A100 80GB (~$2–4/Tag auf Clore.ai) betreibt das Instruct-Modell ohne Offloading-Tricks. Das ist deutlich schneller als eine RTX 4090 mit CPU-Offloading.
Modelle vorab herunterladen — Der vollständige Instruct-Checkpoint ist ~160GB. Lade ihn einmal auf ein persistenten Clore.ai-Volume herunter, um ein erneutes Herunterladen bei jedem Start einer neuen Instanz zu vermeiden.
Verwende SSH-Tunneling für Gradio — Setze Port 7860 nicht öffentlich aus. Verwende ssh -L 7860:localhost:7860 um sicher aus deinem Browser auf die Weboberfläche zuzugreifen.
Probiere das vLLM-Backend für Batch-Arbeiten — Wenn du viele Bilder generierst, bietet der vLLM-Inferenzpfad (im vllm_infer/ Ordner) deutlich bessere Durchsatzraten.

Fehlerbehebung

Problem

Lösung

CUDA out of memory auf RTX 4090

Verwenden Sie device_map="auto" um CPU-Offloading zu aktivieren, oder wechsle zum Distil-Modell

Download schlägt fehl / sehr langsam

Setze HF_TOKEN als Umgebungsvariable; verwende huggingface-cli download mit --resume-download

Kann Modell nicht über HF-Modell-ID laden

Aufgrund des Punkts im Namen zuerst lokal klonen: huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/

Verschwommene oder niedrigqualitative Ausgaben

Erhöhen Sie --num-inference-steps auf 40–50; erhöhe --guidance-scale auf 7.0

Bildbearbeitung ignoriert Anweisungen

Sei spezifisch darüber, was geändert und was erhalten werden soll; verwende kurze, klare Prompts

Gradio-Oberfläche startet nicht

Stelle sicher, dass gradio>=4.0 installiert ist; überprüfe, dass der Modellpfad auf das richtige Verzeichnis zeigt

Weiterführende Lektüre

GitHub-Repository — Offizieller Code, Inferenzskripte, Gradio-Demo
HunyuanImage 3.0-Instruct (HuggingFace) — Vollständige Modellgewichte
Distillierter Checkpoint — 8-Schritt schnelle Inferenz
Technischer Bericht (arXiv) — Architekturdetails und Benchmarks
ComfyUI-Integration — Community ComfyUI benutzerdefinierter Knoten

VorherigeFLUX.2 Klein NächsteInvokeAI

Zuletzt aktualisiert vor 21 Tagen

War das hilfreich?

hashtagHauptmerkmale

hashtagModellvarianten

hashtagAnforderungen

hashtagSchnellstart

hashtagInstallation

hashtagText-zu-Bild mit Transformers

hashtagVerwendung der Gradio-Weboberfläche

hashtagBeispielanwendungen

hashtag1. Text-zu-Bild-Generierung (CLI)

hashtag2. Bildbearbeitung mit natürlicher Sprache

hashtag3. Schnelle Generierung mit dem distillierten Modell (8 Schritte)

hashtagVergleich mit anderen Bildmodellen

hashtagTipps für Clore.ai-Nutzer

hashtagFehlerbehebung

hashtagWeiterführende Lektüre

Hauptmerkmale

Modellvarianten

Anforderungen

Schnellstart

Installation

Text-zu-Bild mit Transformers

Verwendung der Gradio-Weboberfläche

Beispielanwendungen

1. Text-zu-Bild-Generierung (CLI)

2. Bildbearbeitung mit natürlicher Sprache

3. Schnelle Generierung mit dem distillierten Modell (8 Schritte)

Vergleich mit anderen Bildmodellen

Tipps für Clore.ai-Nutzer

Fehlerbehebung

Weiterführende Lektüre