HunyuanImage 3.0

Führen Sie HunyuanImage 3.0 aus — Tencents 80B MoE multimodales Modell zur Bildgenerierung und -bearbeitung auf Clore.ai GPUs

HunyuanImage 3.0 von Tencent ist das weltweit größte Open-Source-Bildgenerierungsmodell mit insgesamt 80 Mrd. Parametern (13 Mrd. aktiv während der Inferenz). Veröffentlicht am 26. Januar 2026, bricht es mit Konventionen, indem es Bildgenerierung, -bearbeitung und -verständnis in einem einzigen autoregressiven Modell vereint — keine separaten Pipelines mehr für Text-zu-Bild und Bild-zu-Bild. Es erzeugt fotorealistische Bilder, führt präzise elementerhaltende Bearbeitungen durch, beherrscht Stilübertragungen und sogar Multibilderfusion, alles mit nur einem Modell.

HuggingFace: tencent/HunyuanImage-3.0-Instructarrow-up-right GitHub: Tencent-Hunyuan/HunyuanImage-3.0arrow-up-right Lizenz: Tencent Hunyuan Community License (kostenlos für Forschung & kommerzielle Nutzung unter 100M MAU)

Hauptmerkmale

  • 80 Mrd. insgesamt / 13 Mrd. aktive Parameter — größtes Open-Source-Bild-MoE-Modell; aktiviert pro Inferenz nur 13 Mrd. Parameter

  • Einheitliche multimodale Architektur — Text-zu-Bild, Bildbearbeitung, Stiltransfer und Mehrbildkomposition in einem Modell

  • Anleitungsgetriebene Bearbeitung — beschreibe in natürlicher Sprache, was du geändert haben möchtest, dabei werden unveränderte Elemente bewahrt

  • Verdichteter Checkpoint verfügbarHunyuanImage-3.0-Instruct-Distil läuft in nur 8 Sampling-Schritten für schnellere Generierung

  • vLLM-Beschleunigung — native vLLM-Unterstützung für deutlich schnellere Inferenz in der Produktion

  • Autoregressives Framework — im Gegensatz zu DiT-basierten Modellen (FLUX, SD3.5) verwendet es einen einheitlichen AR-Ansatz für Verständnis und Generierung

Modellvarianten

Modell
Einsatzgebiet
Schritte
HuggingFace

HunyuanImage-3.0

Nur Text-zu-Bild

30–50

tencent/HunyuanImage-3.0

HunyuanImage-3.0-Instruct

Text-zu-Bild + Bearbeitung + Mehrbild

30–50

tencent/HunyuanImage-3.0-Instruct

HunyuanImage-3.0-Instruct-Distil

Schnelle Inferenz (8 Schritte)

8

tencent/HunyuanImage-3.0-Instruct-Distil

Anforderungen

Konfiguration
Einzelne GPU (Offloading)
Empfohlen
Multi-GPU Produktion

GPU

1× RTX 4090 24GB

1× A100 80GB

2–3× A100 80GB

VRAM

24GB (mit Layer-Offload)

80GB

160–240GB

RAM

128GB

128GB

256GB

Festplatte

200GB

200GB

200GB

CUDA

12.0+

12.0+

12.0+

Empfohlene Clore.ai-Konfiguration:

  • Bestes Preis-Leistungs-Verhältnis: 1× A100 80GB (~$2–4/Tag) — läuft bequem mit dem vollständigen Modell ohne Offloading

  • Budget-Option: 1× RTX 4090 (~$0.5–2/Tag) — funktioniert mit CPU-Offloading (langsamer, aber funktionsfähig)

  • Schnelle Produktion: 2× A100 80GB (~$4–8/Tag) — für Batch-Generierung und das Instruct-Modell

Schnellstart

Installation

Text-zu-Bild mit Transformers

Verwendung der Gradio-Weboberfläche

Die einfachste Möglichkeit, mit allen Funktionen zu experimentieren:

Dann über einen SSH-Tunnel zugreifen: ssh -L 7860:localhost:7860 root@<clore-ip>

Beispielanwendungen

1. Text-zu-Bild-Generierung (CLI)

2. Bildbearbeitung mit natürlicher Sprache

Eine der herausragenden Funktionen von HunyuanImage 3.0 — bearbeite vorhandene Bilder, indem du die Änderungen beschreibst:

3. Schnelle Generierung mit dem distillierten Modell (8 Schritte)

Vergleich mit anderen Bildmodellen

Funktion
HunyuanImage 3.0
FLUX.2 Klein
SD 3.5 Groß

Parameter

80B MoE (13B aktiv)

32B DiT

8B DiT

Architektur

Autoregressives MoE

Diffusions-Transformer

Diffusions-Transformer

Bildbearbeitung

✅ Native

❌ Benötigt ControlNet

❌ Benötigt img2img

Mehrbildfusion

✅ Native

Stiltransfer

✅ Native

❌ Benötigt LoRA

❌ Benötigt LoRA

Min. VRAM

~24GB (ausgelagert)

16GB

8GB

Geschwindigkeit (A100)

~15–30 Sek.

~0.3 Sek.

~5 Sek.

Lizenz

Tencent-Community

Apache 2.0

Stability AI CL

Tipps für Clore.ai-Nutzer

  1. Verwende das distillierte Modell für GeschwindigkeitHunyuanImage-3.0-Instruct-Distil generiert in 8 Schritten statt 30–50 und reduziert die Inferenzzeit um das 4–6-fache. Die Qualität bleibt überraschend nahe am vollständigen Modell.

  2. A100 80GB ist der Sweet Spot — Eine einzelne A100 80GB (~$2–4/Tag auf Clore.ai) betreibt das Instruct-Modell ohne Offloading-Tricks. Das ist deutlich schneller als eine RTX 4090 mit CPU-Offloading.

  3. Modelle vorab herunterladen — Der vollständige Instruct-Checkpoint ist ~160GB. Lade ihn einmal auf ein persistenten Clore.ai-Volume herunter, um ein erneutes Herunterladen bei jedem Start einer neuen Instanz zu vermeiden.

  4. Verwende SSH-Tunneling für Gradio — Setze Port 7860 nicht öffentlich aus. Verwende ssh -L 7860:localhost:7860 um sicher aus deinem Browser auf die Weboberfläche zuzugreifen.

  5. Probiere das vLLM-Backend für Batch-Arbeiten — Wenn du viele Bilder generierst, bietet der vLLM-Inferenzpfad (im vllm_infer/ Ordner) deutlich bessere Durchsatzraten.

Fehlerbehebung

Problem
Lösung

CUDA out of memory auf RTX 4090

Verwenden Sie device_map="auto" um CPU-Offloading zu aktivieren, oder wechsle zum Distil-Modell

Download schlägt fehl / sehr langsam

Setze HF_TOKEN als Umgebungsvariable; verwende huggingface-cli download mit --resume-download

Kann Modell nicht über HF-Modell-ID laden

Aufgrund des Punkts im Namen zuerst lokal klonen: huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/

Verschwommene oder niedrigqualitative Ausgaben

Erhöhen Sie --num-inference-steps auf 40–50; erhöhe --guidance-scale auf 7.0

Bildbearbeitung ignoriert Anweisungen

Sei spezifisch darüber, was geändert und was erhalten werden soll; verwende kurze, klare Prompts

Gradio-Oberfläche startet nicht

Stelle sicher, dass gradio>=4.0 installiert ist; überprüfe, dass der Modellpfad auf das richtige Verzeichnis zeigt

Weiterführende Lektüre

Zuletzt aktualisiert

War das hilfreich?