HunyuanImage 3.0
Führen Sie HunyuanImage 3.0 aus — Tencents 80B MoE multimodales Modell zur Bildgenerierung und -bearbeitung auf Clore.ai GPUs
HunyuanImage 3.0 von Tencent ist das weltweit größte Open-Source-Bildgenerierungsmodell mit insgesamt 80 Mrd. Parametern (13 Mrd. aktiv während der Inferenz). Veröffentlicht am 26. Januar 2026, bricht es mit Konventionen, indem es Bildgenerierung, -bearbeitung und -verständnis in einem einzigen autoregressiven Modell vereint — keine separaten Pipelines mehr für Text-zu-Bild und Bild-zu-Bild. Es erzeugt fotorealistische Bilder, führt präzise elementerhaltende Bearbeitungen durch, beherrscht Stilübertragungen und sogar Multibilderfusion, alles mit nur einem Modell.
HuggingFace: tencent/HunyuanImage-3.0-Instruct GitHub: Tencent-Hunyuan/HunyuanImage-3.0 Lizenz: Tencent Hunyuan Community License (kostenlos für Forschung & kommerzielle Nutzung unter 100M MAU)
Hauptmerkmale
80 Mrd. insgesamt / 13 Mrd. aktive Parameter — größtes Open-Source-Bild-MoE-Modell; aktiviert pro Inferenz nur 13 Mrd. Parameter
Einheitliche multimodale Architektur — Text-zu-Bild, Bildbearbeitung, Stiltransfer und Mehrbildkomposition in einem Modell
Anleitungsgetriebene Bearbeitung — beschreibe in natürlicher Sprache, was du geändert haben möchtest, dabei werden unveränderte Elemente bewahrt
Verdichteter Checkpoint verfügbar —
HunyuanImage-3.0-Instruct-Distilläuft in nur 8 Sampling-Schritten für schnellere GenerierungvLLM-Beschleunigung — native vLLM-Unterstützung für deutlich schnellere Inferenz in der Produktion
Autoregressives Framework — im Gegensatz zu DiT-basierten Modellen (FLUX, SD3.5) verwendet es einen einheitlichen AR-Ansatz für Verständnis und Generierung
Modellvarianten
HunyuanImage-3.0
Nur Text-zu-Bild
30–50
tencent/HunyuanImage-3.0
HunyuanImage-3.0-Instruct
Text-zu-Bild + Bearbeitung + Mehrbild
30–50
tencent/HunyuanImage-3.0-Instruct
HunyuanImage-3.0-Instruct-Distil
Schnelle Inferenz (8 Schritte)
8
tencent/HunyuanImage-3.0-Instruct-Distil
Anforderungen
GPU
1× RTX 4090 24GB
1× A100 80GB
2–3× A100 80GB
VRAM
24GB (mit Layer-Offload)
80GB
160–240GB
RAM
128GB
128GB
256GB
Festplatte
200GB
200GB
200GB
CUDA
12.0+
12.0+
12.0+
Empfohlene Clore.ai-Konfiguration:
Bestes Preis-Leistungs-Verhältnis: 1× A100 80GB (~$2–4/Tag) — läuft bequem mit dem vollständigen Modell ohne Offloading
Budget-Option: 1× RTX 4090 (~$0.5–2/Tag) — funktioniert mit CPU-Offloading (langsamer, aber funktionsfähig)
Schnelle Produktion: 2× A100 80GB (~$4–8/Tag) — für Batch-Generierung und das Instruct-Modell
Schnellstart
Installation
Text-zu-Bild mit Transformers
Verwendung der Gradio-Weboberfläche
Die einfachste Möglichkeit, mit allen Funktionen zu experimentieren:
Dann über einen SSH-Tunnel zugreifen: ssh -L 7860:localhost:7860 root@<clore-ip>
Beispielanwendungen
1. Text-zu-Bild-Generierung (CLI)
2. Bildbearbeitung mit natürlicher Sprache
Eine der herausragenden Funktionen von HunyuanImage 3.0 — bearbeite vorhandene Bilder, indem du die Änderungen beschreibst:
3. Schnelle Generierung mit dem distillierten Modell (8 Schritte)
Vergleich mit anderen Bildmodellen
Parameter
80B MoE (13B aktiv)
32B DiT
8B DiT
Architektur
Autoregressives MoE
Diffusions-Transformer
Diffusions-Transformer
Bildbearbeitung
✅ Native
❌ Benötigt ControlNet
❌ Benötigt img2img
Mehrbildfusion
✅ Native
❌
❌
Stiltransfer
✅ Native
❌ Benötigt LoRA
❌ Benötigt LoRA
Min. VRAM
~24GB (ausgelagert)
16GB
8GB
Geschwindigkeit (A100)
~15–30 Sek.
~0.3 Sek.
~5 Sek.
Lizenz
Tencent-Community
Apache 2.0
Stability AI CL
Tipps für Clore.ai-Nutzer
Verwende das distillierte Modell für Geschwindigkeit —
HunyuanImage-3.0-Instruct-Distilgeneriert in 8 Schritten statt 30–50 und reduziert die Inferenzzeit um das 4–6-fache. Die Qualität bleibt überraschend nahe am vollständigen Modell.A100 80GB ist der Sweet Spot — Eine einzelne A100 80GB (~$2–4/Tag auf Clore.ai) betreibt das Instruct-Modell ohne Offloading-Tricks. Das ist deutlich schneller als eine RTX 4090 mit CPU-Offloading.
Modelle vorab herunterladen — Der vollständige Instruct-Checkpoint ist ~160GB. Lade ihn einmal auf ein persistenten Clore.ai-Volume herunter, um ein erneutes Herunterladen bei jedem Start einer neuen Instanz zu vermeiden.
Verwende SSH-Tunneling für Gradio — Setze Port 7860 nicht öffentlich aus. Verwende
ssh -L 7860:localhost:7860um sicher aus deinem Browser auf die Weboberfläche zuzugreifen.Probiere das vLLM-Backend für Batch-Arbeiten — Wenn du viele Bilder generierst, bietet der vLLM-Inferenzpfad (im
vllm_infer/Ordner) deutlich bessere Durchsatzraten.
Fehlerbehebung
CUDA out of memory auf RTX 4090
Verwenden Sie device_map="auto" um CPU-Offloading zu aktivieren, oder wechsle zum Distil-Modell
Download schlägt fehl / sehr langsam
Setze HF_TOKEN als Umgebungsvariable; verwende huggingface-cli download mit --resume-download
Kann Modell nicht über HF-Modell-ID laden
Aufgrund des Punkts im Namen zuerst lokal klonen: huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/
Verschwommene oder niedrigqualitative Ausgaben
Erhöhen Sie --num-inference-steps auf 40–50; erhöhe --guidance-scale auf 7.0
Bildbearbeitung ignoriert Anweisungen
Sei spezifisch darüber, was geändert und was erhalten werden soll; verwende kurze, klare Prompts
Gradio-Oberfläche startet nicht
Stelle sicher, dass gradio>=4.0 installiert ist; überprüfe, dass der Modellpfad auf das richtige Verzeichnis zeigt
Weiterführende Lektüre
GitHub-Repository — Offizieller Code, Inferenzskripte, Gradio-Demo
HunyuanImage 3.0-Instruct (HuggingFace) — Vollständige Modellgewichte
Distillierter Checkpoint — 8-Schritt schnelle Inferenz
Technischer Bericht (arXiv) — Architekturdetails und Benchmarks
ComfyUI-Integration — Community ComfyUI benutzerdefinierter Knoten
Zuletzt aktualisiert
War das hilfreich?