HunyuanImage 3.0
Exécutez HunyuanImage 3.0 — le modèle multimodal de génération et d'édition d'images 80B MoE de Tencent sur les GPU Clore.ai
HunyuanImage 3.0 par Tencent est le plus grand modèle open-source de génération d'images au monde avec 80 milliards de paramètres au total (13 milliards actifs pendant l'inférence). Publié le 26 janvier 2026, il brise les conventions en unifiant génération d'images, édition et compréhension dans un seul modèle autorégressif — plus besoin de pipelines séparés pour texte→image et image→image. Il génère des images photoréalistes, effectue des modifications précises en préservant les éléments, gère les transferts de style et réalise même la fusion multi-images, le tout avec un seul modèle.
HuggingFace : tencent/HunyuanImage-3.0-Instruct GitHub : Tencent-Hunyuan/HunyuanImage-3.0 Licence : Licence Communautaire Tencent Hunyuan (gratuite pour la recherche et l'usage commercial sous 100M MAU)
Principales caractéristiques
80 milliards au total / 13 milliards de paramètres actifs — plus grand modèle MoE open-source pour images ; n'active que 13 milliards de paramètres par inférence
Architecture multimodale unifiée — texte→image, édition d'image, transfert de style et composition multi-image dans un seul modèle
Édition pilotée par instructions — décrivez ce que vous voulez modifier en langage naturel, en préservant les éléments non touchés
Point de contrôle distillé disponible —
HunyuanImage-3.0-Instruct-Distilfonctionne en seulement 8 étapes d'échantillonnage pour une génération plus rapideaccélération vLLM — support natif vLLM pour une inférence en production significativement plus rapide
Cadre autorégressif — contrairement aux modèles basés sur DiT (FLUX, SD3.5), utilise une approche AR unifiée pour la compréhension et la génération
Variantes de modèle
HunyuanImage-3.0
Texte→image uniquement
30–50
tencent/HunyuanImage-3.0
HunyuanImage-3.0-Instruct
Texte→image + édition + multi-image
30–50
tencent/HunyuanImage-3.0-Instruct
HunyuanImage-3.0-Instruct-Distil
Inférence rapide (8 étapes)
8
tencent/HunyuanImage-3.0-Instruct-Distil
Exigences
GPU
1× RTX 4090 24GB
1× A100 80GB
2–3× A100 80GB
VRAM
24GB (avec déchargement de couches)
80Go
160–240GB
RAM
128Go
128Go
256GB
Disque
200GB
200GB
200GB
CUDA
12.0+
12.0+
12.0+
Configuration Clore.ai recommandée :
Meilleur rapport qualité/prix : 1× A100 80GB (~2–4$/jour) — exécute le modèle complet confortablement sans déchargement
Option économique : 1× RTX 4090 (~0,5–2$/jour) — fonctionne avec déchargement sur CPU (plus lent, mais fonctionnel)
Production rapide : 2× A100 80GB (~4–8$/jour) — pour génération par lots et le modèle Instruct
Démarrage rapide
Installation
Texte→Image avec Transformers
Utiliser l'interface Web Gradio
La manière la plus simple d'expérimenter toutes les fonctionnalités :
Puis accéder via un tunnel SSH : ssh -L 7860:localhost:7860 root@<clore-ip>
Exemples d'utilisation
1. Génération Texte→Image (CLI)
2. Édition d'image avec langage naturel
Une des fonctionnalités remarquables de HunyuanImage 3.0 — modifiez des images existantes en décrivant les changements :
3. Génération rapide avec le modèle distillé (8 étapes)
Comparaison avec d'autres modèles d'images
Paramètres
80B MoE (13B actifs)
32B DiT
8B DiT
Architecture
MoE autorégressif
Transformeur par diffusion
Transformeur par diffusion
Édition d'image
✅ Natif
❌ Nécessite ControlNet
❌ Nécessite img2img
Fusion multi-image
✅ Natif
❌
❌
Transfert de style
✅ Natif
❌ Nécessite LoRA
❌ Nécessite LoRA
VRAM min
~24GB (déchargé)
16Go
8 Go
Vitesse (A100)
~15–30 sec
~0.3 sec
~5 sec
Licence
Communauté Tencent
Apache 2.0
Stability AI CL
Conseils pour les utilisateurs de Clore.ai
Utilisez le modèle distillé pour la vitesse —
HunyuanImage-3.0-Instruct-Distilgénère en 8 étapes au lieu de 30–50, réduisant le temps d'inférence par 4–6×. La qualité reste étonnamment proche du modèle complet.A100 80GB est le point idéal — Une seule A100 80GB (~2–4$/jour sur Clore.ai) exécute le modèle Instruct sans aucun artifice de déchargement. C'est beaucoup plus rapide qu'une RTX 4090 avec déchargement CPU.
Pré-téléchargez les modèles — Le point de contrôle Instruct complet fait ~160GB. Téléchargez-le une fois sur un volume persistant Clore.ai pour éviter de le retélécharger à chaque nouvelle instance.
Utilisez le tunneling SSH pour Gradio — N'exposez pas le port 7860 publiquement. Utilisez
ssh -L 7860:localhost:7860pour accéder à l'interface web en toute sécurité depuis votre navigateur.Essayez le backend vLLM pour le travail par lots — Si vous générez de nombreuses images, le chemin d'inférence vLLM (dans le
vllm_infer/dossier) offre un débit nettement meilleur.
Dépannage
CUDA out of memory sur RTX 4090
Utilisez device_map="auto" pour activer le déchargement sur CPU, ou passez au modèle Distil
Le téléchargement échoue / très lent
Définir HF_TOKEN variable d'environnement ; utilisez huggingface-cli download avec --resume-download
Impossible de charger le modèle via l'ID HF
En raison du point dans le nom, clonez d'abord localement : huggingface-cli download tencent/HunyuanImage-3.0-Instruct --local-dir ./ckpts/
Sorties floues ou de faible qualité
Augmentez --num-inference-steps à 40–50 ; augmentez --guidance-scale à 7.0
L'édition d'image ignore les instructions
Soyez précis sur ce qu'il faut changer et ce qu'il faut préserver ; utilisez des prompts courts et clairs
L'interface Gradio ne démarre pas
Assurez-vous que gradio>=4.0 est installé ; vérifiez que le chemin du modèle pointe vers le bon répertoire
Lectures complémentaires
Dépôt GitHub — Code officiel, scripts d'inférence, démo Gradio
HunyuanImage 3.0-Instruct (HuggingFace) — Poids du modèle complet
Point de contrôle distillé — Inférence rapide en 8 étapes
Rapport technique (arXiv) — Détails d'architecture et benchmarks
Intégration ComfyUI — Nœud personnalisé Community ComfyUI
Mis à jour
Ce contenu vous a-t-il été utile ?