> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-fr/generation-3d/hunyuan-world-2.md).

# Hunyuan World 2.0 (modèle de monde 3D)

{% hint style="info" %}
**Publié le 15 avril 2026** — Tencent Hunyuan a lancé **HY-World 2.0**, le premier modèle de monde 3D SOTA entièrement open source. Ce guide couvre **WorldMirror 2.0** (le composant de reconstruction livré, d’environ 1,2 milliard de paramètres). Les modèles frères **HY-Pano 2.0** et **WorldStereo 2.0** sont signalés comme « à venir » dans le dépôt officiel — voir la [Feuille de route](#roadmap) ci-dessous.
{% endhint %}

HY-World 2.0 est le framework de modèle de monde multimodal de Tencent pour **reconstruire, générer et simuler des scènes 3D complètes**. Contrairement aux générateurs de maillages à objet unique, HY-World ingère du texte, des images à vue unique ou multivue, ou de la vidéo, et produit des représentations de monde éditables — maillages, splats gaussiens 3D, nuages de points, cartes de profondeur, normales de surface et paramètres de caméra récupérés — prêtes à être intégrées dans Unity, Unreal ou Blender.

Les premiers poids publics couvrent **WorldMirror 2.0** (environ 1,2 milliard de paramètres, BF16) — la moitié « reconstruction » de la pile. Elle fonctionne avec environ 12 à 24 Go de VRAM sur un seul GPU et prend en charge une résolution flexible de 50K à 500K pixels, ainsi que le sharding FSDP multi-GPU pour les charges de travail plus importantes. Une API Python (`diffusers`-style), une CLI via `torchrun`, et une démo Gradio sont fournis prêts à l’emploi. Un nœud ComfyUI n’est **pas** officiellement disponible pour l’instant — uniquement des ports communautaires.

{% hint style="success" %}
Tous les exemples de ce guide s’exécutent sur des serveurs GPU loués via la [CLORE.AI Marketplace](https://clore.ai/marketplace).
{% endhint %}

### Spécifications clés

| Propriété           | Valeur                                                                                        |
| ------------------- | --------------------------------------------------------------------------------------------- |
| Composant           | WorldMirror 2.0 (livré) ; HY-Pano 2.0 + WorldStereo 2.0 à venir                               |
| Paramètres          | \~1,2 milliard (BF16)                                                                         |
| Modalités d’entrée  | Texte · image à vue unique · images multivues · vidéo                                         |
| Sortie              | Maillage · splat gaussien 3D · nuage de points · profondeur · normales · paramètres de caméra |
| VRAM                | \~12–24 Go sur un seul GPU ; FSDP pour multi-GPU                                              |
| Plage de résolution | 50K – 500K pixels (résolution flexible)                                                       |
| Licence             | `tencent-hy-world-2.0-community` (personnalisée — voir ci-dessous)                            |
| Publication         | 2026-04-15                                                                                    |

{% hint style="warning" %}
**Avertissement sur la licence :** HY-World 2.0 est वितré sous une licence communautaire personnalisée (`License.txt` à la racine du dépôt), **pas** Apache 2.0 ou MIT. Les conditions d’utilisation commerciale diffèrent de celles de Hunyuan3D 2.1 de Tencent. Lisez la licence complète avant de livrer quoi que ce soit basé dessus.
{% endhint %}

### Pourquoi HY-World 2.0 ?

* **Premier modèle de monde open source SOTA** — aucun concurrent fermé dans cette catégorie
* **Sortie de scène complète, pas seulement des maillages** — splats gaussiens + géométrie + caméra en une seule passe
* **Entrées multimodales** — le même pipeline gère le texte, les images et la vidéo
* **Prêt pour FSDP** — passage à l’échelle sur 2 à 8 GPU pour l’inférence haute résolution ou par lots
* **Prêt pour les moteurs de jeu** — les sorties s’intègrent directement dans Unity, Unreal et Blender

***

## Exigences

| Composant   | Minimum                 | Recommandé                        |
| ----------- | ----------------------- | --------------------------------- |
| VRAM GPU    | 16 Go (RTX 4080 / 3090) | 24–80 Go (RTX 4090 / A100 / H100) |
| RAM système | 32 Go                   | 64–128 Go                         |
| Disque      | 80 Go                   | 200 Go                            |
| CUDA        | 12.1                    | 12.4+                             |
| Python      | 3.10                    | 3.10                              |
| PyTorch     | 2.4.0                   | 2.4.0+                            |

{% hint style="info" %}
Le mode multi-GPU nécessite **≥ 1 image d’entrée par GPU**. Pour une seule image de référence, restez sur un GPU et laissez FSDP ne s’activer que pour les traitements par lots ou les tâches à haute résolution.
{% endhint %}

***

## Option A — Démarrage rapide avec Docker + torchrun

Un `docker-compose.yml` minimal pour un conteneur Clore.ai (l’image officielle de Tencent n’est pas encore publiée — cela utilise la base PyTorch et exécute l’installation du dépôt à l’intérieur) :

```yaml
version: "3.8"
services:
  hyworld2:
    image: pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel
    ports:
      - "7860:7860"
    volumes:
      - ./workspace:/workspace
      - hf_cache:/root/.cache/huggingface
    working_dir: /workspace
    command: >
      bash -c "
        git clone https://github.com/Tencent-Hunyuan/HY-World-2.0 &&
        cd HY-World-2.0 &&
        pip install -r requirements.txt &&
        pip install flash-attn --no-build-isolation &&
        python -m hyworld2.worldrecon.gradio_app
      "
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

Exécutez une tâche de reconstruction multi-GPU avec FSDP et BF16 :

```bash
torchrun --nproc_per_node=2 -m hyworld2.worldrecon.pipeline \
    --input_path /workspace/input_images \
    --use_fsdp --enable_bf16
```

***

## Option B — API Python manuelle

```bash
# Cloner et installer
git clone https://github.com/Tencent-Hunyuan/HY-World-2.0
cd HY-World-2.0
conda create -n hyworld2 python=3.10 -y
conda activate hyworld2
pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
```

```python
from hyworld2.worldrecon.pipeline import WorldMirrorPipeline

# Charge les poids BF16 d’environ 1,2 milliard depuis HF (tencent/HY-World-2.0)
pipeline = WorldMirrorPipeline.from_pretrained('tencent/HY-World-2.0')

# Reconstruire une scène 3D à partir d’un dossier d’images multivues
result = pipeline('path/to/images')

# Optionnel : injecter une caméra et une profondeur préalables pour une reconstruction plus précise
result = pipeline(
    'path/to/images',
    prior_cam_path='path/to/prior_camera.json',
    prior_depth_path='path/to/prior_depth/',
)
```

Lancer la démo Gradio sur le port 7860 :

```bash
python -m hyworld2.worldrecon.gradio_app
```

Pour Gradio multi-GPU avec FSDP :

```bash
torchrun --nproc_per_node=2 -m hyworld2.worldrecon.gradio_app \
    --use_fsdp --enable_bf16
```

***

## Recommandations GPU pour Clore.ai

| Charge de travail                                 | GPU        | VRAM       | Pourquoi                                                       | Coût Clore.ai  |
| ------------------------------------------------- | ---------- | ---------- | -------------------------------------------------------------- | -------------- |
| Image unique → scène, dev/aperçu                  | RTX 4090   | 24 Go      | BF16 tient confortablement, itération rapide                   | \~0,5–2 $/jour |
| Reconstruction vidéo multivue                     | A100 40 Go | 40 Go      | Gère des images de plus de 200K px sans OOM                    | \~3–5 $/jour   |
| Traitement par lots haute résolution (production) | A100 80 Go | 80 Go      | Résolution flexible complète 500K px, grands lots              | \~5–8 $/jour   |
| FSDP multi-GPU / recherche                        | 2–4× H100  | 160–320 Go | Charges de travail à l’échelle de l’entraînement avec sharding | \~15–40 $/jour |

{% hint style="success" %}
**Point idéal sur Clore.ai :** une seule **RTX 4090 à \~0,5–2 $/jour** gère l’inférence WorldMirror quotidienne. Passez à une A100 seulement si vous avez besoin de reconstructions de plus de 200K pixels ou d’entrées vidéo longues.
{% endhint %}

***

## Cas d’utilisation

* **Développement de jeux** — transformez des concept arts en environnements 3D bruts pour le blockout et le greybox
* **Contenu AR/VR** — générez des scènes en splats gaussiens jouables dans Unity/Unreal avec une fidélité proche de la photographie
* **Prévisualisation pour le cinéma et l’animation** — reconstruisez des décors à partir de photos de tournage pour la cinématographie virtuelle
* **Visualisation architecturale** — convertissez des images de référence ou des briefs textuels en visites 3D éditables
* **Robotique + simulation** — synthétisez des environnements d’entraînement 3D à partir de séquences réelles clairsemées

***

## Feuille de route

Tencent a indiqué ce qui suit comme « à venir » dans le dépôt officiel :

* **HY-Pano 2.0** — génération de panorama 360° (intermédiaire : HunyuanWorld 1.0)
* **WorldStereo 2.0** — expansion du monde / synthèse de nouvelles vues (intermédiaire : WorldStereo original)
* **WorldNav** — planification de trajectoire pour le déplacement dans la scène
* **Code complet du pipeline de génération de mondes** — le point d’entrée texte/image → monde complet

WorldMirror 2.0 (reconstruction) est aujourd’hui le seul composant avec des poids publics. Gardez un œil sur la [page du modèle HF](https://huggingface.co/tencent/HY-World-2.0) pour les nouvelles sorties.

***

## Dépannage

| Problème                                             | Solution                                                                                                                                                            |
| ---------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `CUDA manque de mémoire` sur GPU 16 Go               | Réduisez la résolution d’entrée vers 50K px, ou passez à une RTX 4090 (24 Go). Activez `--enable_bf16`                                                              |
| FSDP se bloque au lancement                          | Assurez-vous que le nombre d’images d’entrée est **≥** `--nproc_per_node`. FSDP nécessite aussi NCCL + une version CUDA correspondante sur tous les GPU             |
| `flash-attn` l’installation échoue                   | Essayez une roue précompilée `pip install flash-attn --no-build-isolation` sur CUDA 12.4 ; si cela échoue encore, le pipeline fonctionne (plus lentement) sans elle |
| L’interface Gradio n’est pas accessible sur Clore.ai | Redirigez le port 7860 dans la configuration du conteneur Clore, ou lancez avec `--share`                                                                           |
| Questions de licence pour un usage commercial        | Lisez `License.txt` dans le dépôt — il s’agit de `tencent-hy-world-2.0-community`, pas d’un OSS standard                                                            |

***

## Étapes suivantes

* [Hunyuan3D 2.1](/guides/guides_v2-fr/generation-3d/hunyuan3d.md) — générateur de maillage texte/image d’un seul objet de Tencent (pipeline plus petit, de style Apache, cas d’utilisation différent)
* [TRELLIS 3D](/guides/guides_v2-fr/generation-3d/trellis-3d.md) — générateur d’assets 3D structurés de Microsoft
* [Gaussian Splatting](/guides/guides_v2-fr/generation-3d/gaussian-splatting.md) — pipeline de rendu pour les sorties 3DGS produites par HY-World
* [Modèle HuggingFace](https://huggingface.co/tencent/HY-World-2.0)
* [Dépôt GitHub](https://github.com/Tencent-Hunyuan/HY-World-2.0)
* [CLORE.AI Marketplace](https://clore.ai/marketplace)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-fr/generation-3d/hunyuan-world-2.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.