> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-de/3d-generierung/hunyuan-world-2.md).

# Hunyuan World 2.0 (3D-Weltmodell)

{% hint style="info" %}
**Veröffentlicht am 15. April 2026** — Tencent Hunyuan hat veröffentlicht **HY-World 2.0**, das erste vollständig Open-Source SOTA-3D-Weltmodell. Dieser Leitfaden behandelt **WorldMirror 2.0** (die ausgelieferte Rekonstruktionskomponente mit \~1,2 Mrd. Parametern). Schwester-Modelle **HY-Pano 2.0** und **WorldStereo 2.0** sind im offiziellen Repo als „demnächst verfügbar“ markiert — siehe die [Roadmap](#roadmap) unten.
{% endhint %}

HY-World 2.0 ist Tencents multimodales World-Model-Framework zum **Rekonstruieren, Generieren und Simulieren vollständiger 3D-Szenen**. Anders als Generatoren für einzelne Objekte verarbeitet HY-World Text, Einzel- oder Multi-View-Bilder oder Video und gibt bearbeitbare Weltdarstellungen aus — Meshes, 3D-Gaussian-Splats, Punktwolken, Tiefenkarten, Oberflächennormalen und wiederhergestellte Kameraparameter — bereit zum direkten Einsatz in Unity, Unreal oder Blender.

Die ersten öffentlichen Gewichte decken **WorldMirror 2.0** ab (\~1,2 Mrd. Parameter, BF16) — die Rekonstruktionshälfte des Stacks. Es läuft mit \~12–24 GB VRAM auf einer einzelnen GPU und unterstützt flexible Auflösungen von 50K bis 500K Pixeln sowie FSDP-Multi-GPU-Sharding für größere Workloads. Eine Python-API (`diffusers`-ähnlich), eine CLI via `torchrun`und eine Gradio-Demo sind direkt enthalten. Ein ComfyUI-Node ist **noch** nicht offiziell — nur Community-Ports.

{% hint style="success" %}
Alle Beispiele in diesem Leitfaden laufen auf GPU-Servern, die über den [CLORE.AI Marketplace](https://clore.ai/marketplace).
{% endhint %}

### Wichtige Spezifikationen

| Eigenschaft        | Wert                                                                              |
| ------------------ | --------------------------------------------------------------------------------- |
| Komponente         | WorldMirror 2.0 (ausgeliefert); HY-Pano 2.0 + WorldStereo 2.0 demnächst verfügbar |
| Parameter          | \~1,2 Mrd. (BF16)                                                                 |
| Eingabemodalitäten | Text · Einzelbild · Multi-View-Bilder · Video                                     |
| Ausgabe            | Mesh · 3D Gaussian Splat · Punktwolke · Tiefe · Normalen · Kameraparameter        |
| VRAM               | \~12–24 GB einzelne GPU; FSDP für Multi-GPU                                       |
| Auflösungsbereich  | 50K – 500K Pixel (flexible Auflösung)                                             |
| Lizenz             | `tencent-hy-world-2.0-community` (benutzerdefiniert — siehe unten)                |
| Veröffentlichung   | 2026-04-15                                                                        |

{% hint style="warning" %}
**Lizenzhinweis:** HY-World 2.0 wird unter einer benutzerdefinierten Community-Lizenz ausgeliefert (`License.txt` im Repo-Root), **noch** nicht unter Apache 2.0 oder MIT. Die Bedingungen für die kommerzielle Nutzung unterscheiden sich von Tencents Hunyuan3D 2.1. Lies die vollständige Lizenz, bevor du etwas damit auslieferst.
{% endhint %}

### Warum HY-World 2.0?

* **Erstes Open-Source-SOTA-Weltmodell** — keine geschlossenen Konkurrenten in dieser Kategorie
* **Ausgabe der gesamten Szene, nicht nur Meshes** — Gaussian Splats + Geometrie + Kamera in einem Durchlauf
* **Multimodale Eingaben** — dieselbe Pipeline verarbeitet Text, Bilder und Video
* **FSDP-bereit** — Skalierung über 2–8 GPUs für hochauflösende oder Batch-Inferenz
* **Bereit für Game-Engines** — Ausgaben lassen sich direkt in Unity, Unreal und Blender übernehmen

***

## Anforderungen

| Komponente     | Minimum                 | Empfohlen                         |
| -------------- | ----------------------- | --------------------------------- |
| GPU VRAM       | 16 GB (RTX 4080 / 3090) | 24–80 GB (RTX 4090 / A100 / H100) |
| Systemspeicher | 32 GB                   | 64–128 GB                         |
| Speicherplatz  | 80 GB                   | 200 GB                            |
| CUDA           | 12.1                    | 12.4+                             |
| Python         | 3.10                    | 3.10                              |
| PyTorch        | 2.4.0                   | 2.4.0+                            |

{% hint style="info" %}
Der Multi-GPU-Modus erfordert **≥ 1 Eingabebild pro GPU**. Für ein einzelnes Referenzbild bleib bei einer GPU und lasse FSDP nur bei Batch- oder Hochauflösungs-Jobs greifen.
{% endhint %}

***

## Option A — Schnellstart mit Docker + torchrun

Eine minimale `docker-compose.yml` für einen Clore.ai-Container (das offizielle Tencent-Image ist noch nicht veröffentlicht — hier wird das PyTorch-Basisimage verwendet und das Repo-Setup darin ausgeführt):

```yaml
version: "3.8"
services:
  hyworld2:
    image: pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel
    ports:
      - "7860:7860"
    volumes:
      - ./workspace:/workspace
      - hf_cache:/root/.cache/huggingface
    working_dir: /workspace
    command: >
      bash -c "
        git clone https://github.com/Tencent-Hunyuan/HY-World-2.0 &&
        cd HY-World-2.0 &&
        pip install -r requirements.txt &&
        pip install flash-attn --no-build-isolation &&
        python -m hyworld2.worldrecon.gradio_app
      "
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

Führe einen Multi-GPU-Rekonstruktionsjob mit FSDP und BF16 aus:

```bash
torchrun --nproc_per_node=2 -m hyworld2.worldrecon.pipeline \
    --input_path /workspace/input_images \
    --use_fsdp --enable_bf16
```

***

## Option B — Manuelle Python-API

```bash
# Klonen und installieren
git clone https://github.com/Tencent-Hunyuan/HY-World-2.0
cd HY-World-2.0
conda create -n hyworld2 python=3.10 -y
conda activate hyworld2
pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
```

```python
from hyworld2.worldrecon.pipeline import WorldMirrorPipeline

# Lädt ~1,2 Mrd. BF16-Gewichte von HF (tencent/HY-World-2.0)
pipeline = WorldMirrorPipeline.from_pretrained('tencent/HY-World-2.0')

# Rekonstruiere eine 3D-Szene aus einem Ordner mit Multi-View-Bildern
result = pipeline('path/to/images')

# Optional: Kamera- und Tiefen-Vorwissen für präzisere Rekonstruktion einspeisen
result = pipeline(
    'path/to/images',
    prior_cam_path='path/to/prior_camera.json',
    prior_depth_path='path/to/prior_depth/',
)
```

Starte die Gradio-Demo auf Port 7860:

```bash
python -m hyworld2.worldrecon.gradio_app
```

Für Multi-GPU-Gradio mit FSDP:

```bash
torchrun --nproc_per_node=2 -m hyworld2.worldrecon.gradio_app \
    --use_fsdp --enable_bf16
```

***

## Clore.ai GPU-Empfehlungen

| Workload                                 | GPU        | VRAM       | Warum                                          | Clore.ai-Kosten |
| ---------------------------------------- | ---------- | ---------- | ---------------------------------------------- | --------------- |
| Einzelbild → Szene, Entwicklung/Vorschau | RTX 4090   | 24 GB      | BF16 passt bequem, schnelle Iteration          | \~0,5–2 $/Tag   |
| Multi-View-Video-Rekonstruktion          | A100 40 GB | 40 GB      | Verarbeitet Frames mit 200K+ Pixeln ohne OOM   | \~3–5 $/Tag     |
| Hochauflösend im Batch (Produktion)      | A100 80 GB | 80 GB      | volle 500K-Pixel-Flex-Auflösung, große Batches | \~5–8 $/Tag     |
| FSDP Multi-GPU / Forschung               | 2–4× H100  | 160–320 GB | geshardete Workloads im Trainingsmaßstab       | \~15–40 $/Tag   |

{% hint style="success" %}
**Der Sweet Spot auf Clore.ai:** eine einzelne **RTX 4090 für \~0,5–2 $/Tag** bewältigt alltägliche WorldMirror-Inferenz. Steige nur auf eine A100 um, wenn du Rekonstruktionen mit >200K Pixeln oder lange Videoeingaben benötigst.
{% endhint %}

***

## Anwendungsfälle

* **Spielentwicklung** — verwandle Concept Art in grobe 3D-Umgebungen für Blockout und Greybox
* **AR/VR-Inhalte** — generiere Gaussian-Splat-Szenen, die in Unity/Unreal mit nahezu fotografischer Qualität spielbar sind
* **Film- und Animations-Previs** — rekonstruiere Sets aus Vor-Ort-Fotos für virtuelle Kameraführung
* **Architekturvisualisierung** — wandle Referenzaufnahmen oder Textbriefings in bearbeitbare 3D-Walkthroughs um
* **Robotik + Simulation** — synthetisiere 3D-Trainingsumgebungen aus spärlichem realem Videomaterial

***

## Roadmap

Tencent hat im offiziellen Repo Folgendes als „demnächst verfügbar“ aufgeführt:

* **HY-Pano 2.0** — 360°-Panoramagenerierung (Übergangslösung: HunyuanWorld 1.0)
* **WorldStereo 2.0** — Welterweiterung / Novel-View-Synthese (Übergangslösung: originales WorldStereo)
* **WorldNav** — Trajektorienplanung für die Szenendurchquerung
* **Vollständiger Code der Weltgenerierungs-Pipeline** — der Einstiegspunkt für Text/Bild → vollständige Welt

WorldMirror 2.0 (Rekonstruktion) ist heute die einzige Komponente mit öffentlichen Gewichten. Behalte die [HF-Modellseite](https://huggingface.co/tencent/HY-World-2.0) für Veröffentlichungen im Auge.

***

## Fehlerbehebung

| Problem                                 | Lösung                                                                                                                                                                |
| --------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `CUDA-Speicher erschöpft` auf 16-GB-GPU | Senke die Eingabeauflösung in Richtung 50K Pixel oder wechsle zur RTX 4090 (24 GB). Aktiviere `--enable_bf16`                                                         |
| FSDP hängt beim Start                   | Stelle sicher, dass die Anzahl der Eingabebilder **≥** `--nproc_per_node`. FSDP benötigt außerdem NCCL + passende CUDA-Versionen über alle GPUs hinweg                |
| `flash-attn` Installation schlägt fehl  | Versuche ein vorgefertigtes Wheel `pip install flash-attn --no-build-isolation` unter CUDA 12.4; wenn es trotzdem fehlschlägt, läuft die Pipeline ohne es (langsamer) |
| Gradio-UI auf Clore.ai nicht erreichbar | Leite Port 7860 in der Clore-Containerkonfiguration weiter oder starte mit `--share`                                                                                  |
| Lizenzfragen für kommerzielle Nutzung   | Lies `License.txt` im Repo — es ist `tencent-hy-world-2.0-community`, kein Standard-OSS                                                                               |

***

## Nächste Schritte

* [Hunyuan3D 2.1](/guides/guides_v2-de/3d-generierung/hunyuan3d.md) — Tencents Generator für einzelne Objekte von Text/Bild zu Mesh (kleiner, Apache-ähnlicher Workflow, anderer Anwendungsfall)
* [TRELLIS 3D](/guides/guides_v2-de/3d-generierung/trellis-3d.md) — strukturierter 3D-Asset-Generator von Microsoft
* [Gaussian Splatting](/guides/guides_v2-de/3d-generierung/gaussian-splatting.md) — Render-Pipeline für die 3DGS-Ausgaben, die HY-World erzeugt
* [HuggingFace-Modell](https://huggingface.co/tencent/HY-World-2.0)
* [GitHub-Repo](https://github.com/Tencent-Hunyuan/HY-World-2.0)
* [CLORE.AI Marketplace](https://clore.ai/marketplace)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-de/3d-generierung/hunyuan-world-2.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
