# Hunyuan World 2.0 (Modelo de mundo 3D)

{% hint style="info" %}
**Publicado el 15 de abril de 2026** — Tencent Hunyuan lanzó **HY-World 2.0**, el primer modelo 3D de mundo SOTA completamente de código abierto. Esta guía cubre **WorldMirror 2.0** (el componente de reconstrucción de \~1.2B parámetros incluido). Los modelos hermanos **HY-Pano 2.0** y **WorldStereo 2.0** están marcados como "próximamente" en el repositorio oficial — consulta la [Hoja de ruta](#roadmap) a continuación.
{% endhint %}

HY-World 2.0 es el marco de modelo de mundo multimodal de Tencent para **reconstruir, generar y simular escenas 3D completas**. A diferencia de los generadores de mallas de un solo objeto, HY-World ingiere texto, imágenes de vista única o múltiple, o video, y emite representaciones editables del mundo — mallas, Gaussian Splats 3D, nubes de puntos, mapas de profundidad, normales de superficie y parámetros de cámara recuperados — listas para usar en Unity, Unreal o Blender.

Los primeros pesos públicos cubren **WorldMirror 2.0** (\~1.2B parámetros, BF16) — la mitad de reconstrucción de la pila. Funciona con \~12–24 GB de VRAM en una sola GPU y admite resolución flexible de 50K a 500K píxeles, además de fragmentación FSDP multi-GPU para cargas de trabajo más grandes. Una API de Python (`diffusers`-style), CLI mediante `torchrun`, y una demo de Gradio vienen listos para usar. Un nodo de ComfyUI **no** es oficial todavía — solo ports de la comunidad.

{% hint style="success" %}
Todos los ejemplos de esta guía se ejecutan en servidores GPU alquilados a través del [CLORE.AI Marketplace](https://clore.ai/marketplace).
{% endhint %}

### Especificaciones clave

| Propiedad              | Valor                                                                                      |
| ---------------------- | ------------------------------------------------------------------------------------------ |
| Componente             | WorldMirror 2.0 (incluido); HY-Pano 2.0 + WorldStereo 2.0 próximamente                     |
| Parámetros             | \~1.2B (BF16)                                                                              |
| Modalidades de entrada | Texto · imagen de vista única · imágenes de múltiples vistas · video                       |
| Salida                 | Malla · Gaussian Splat 3D · nube de puntos · profundidad · normales · parámetros de cámara |
| VRAM                   | \~12–24 GB una sola GPU; FSDP para multi-GPU                                               |
| Rango de resolución    | 50K – 500K píxeles (resolución flexible)                                                   |
| Licencia               | `tencent-hy-world-2.0-community` (personalizada — ver abajo)                               |
| Lanzamiento            | 2026-04-15                                                                                 |

{% hint style="warning" %}
**Advertencia de licencia:** HY-World 2.0 se distribuye bajo una licencia comunitaria personalizada (`License.txt` en la raíz del repositorio), **no** Apache 2.0 o MIT. Los términos de uso comercial difieren de los de Hunyuan3D 2.1 de Tencent. Lee la licencia completa antes de publicar cualquier cosa construida sobre ella.
{% endhint %}

### ¿Por qué HY-World 2.0?

* **Primer modelo de mundo SOTA de código abierto** — no hay competidores cerrados en esta categoría
* **Salida de escena completa, no solo mallas** — Gaussian Splats + geometría + cámara en una sola pasada
* **Entradas multimodales** — la misma canalización maneja texto, imágenes y video
* **Listo para FSDP** — escala entre 2 y 8 GPUs para inferencia de alta resolución o por lotes
* **Listo para motores de juego** — las salidas se integran directamente en Unity, Unreal y Blender

***

## Requisitos

| Componente      | Mínimo                  | Recomendado                       |
| --------------- | ----------------------- | --------------------------------- |
| VRAM de GPU     | 16 GB (RTX 4080 / 3090) | 24–80 GB (RTX 4090 / A100 / H100) |
| RAM del sistema | 32 GB                   | 64–128 GB                         |
| Disco           | 80 GB                   | 200 GB                            |
| CUDA            | 12.1                    | 12.4+                             |
| Python          | 3.10                    | 3.10                              |
| PyTorch         | 2.4.0                   | 2.4.0+                            |

{% hint style="info" %}
El modo multi-GPU requiere **≥ 1 imagen de entrada por GPU**. Para una sola imagen de referencia, usa una sola GPU y deja que FSDP intervenga solo para trabajos por lotes o de alta resolución.
{% endhint %}

***

## Opción A — Inicio rápido con Docker + torchrun

Un `docker-compose.yml` mínimo para un contenedor de Clore.ai (la imagen oficial de Tencent aún no se ha publicado — esto usa la base de PyTorch y ejecuta la instalación del repositorio dentro):

```yaml
version: "3.8"
services:
  hyworld2:
    image: pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel
    ports:
      - "7860:7860"
    volumes:
      - ./workspace:/workspace
      - hf_cache:/root/.cache/huggingface
    working_dir: /workspace
    command: >
      bash -c "
        git clone https://github.com/Tencent-Hunyuan/HY-World-2.0 &&
        cd HY-World-2.0 &&
        pip install -r requirements.txt &&
        pip install flash-attn --no-build-isolation &&
        python -m hyworld2.worldrecon.gradio_app
      "
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

Ejecuta un trabajo de reconstrucción multi-GPU con FSDP y BF16:

```bash
torchrun --nproc_per_node=2 -m hyworld2.worldrecon.pipeline \
    --input_path /workspace/input_images \
    --use_fsdp --enable_bf16
```

***

## Opción B — API manual de Python

```bash
# Clonar e instalar
git clone https://github.com/Tencent-Hunyuan/HY-World-2.0
cd HY-World-2.0
conda create -n hyworld2 python=3.10 -y
conda activate hyworld2
pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
```

```python
from hyworld2.worldrecon.pipeline import WorldMirrorPipeline

# Carga pesos BF16 de ~1.2B desde HF (tencent/HY-World-2.0)
pipeline = WorldMirrorPipeline.from_pretrained('tencent/HY-World-2.0')

# Reconstruir una escena 3D a partir de una carpeta de imágenes de múltiples vistas
result = pipeline('path/to/images')

# Opcional: inyectar cámara previa + profundidad para una reconstrucción más precisa
result = pipeline(
    'path/to/images',
    prior_cam_path='path/to/prior_camera.json',
    prior_depth_path='path/to/prior_depth/',
)
```

Inicia la demo de Gradio en el puerto 7860:

```bash
python -m hyworld2.worldrecon.gradio_app
```

Para Gradio multi-GPU con FSDP:

```bash
torchrun --nproc_per_node=2 -m hyworld2.worldrecon.gradio_app \
    --use_fsdp --enable_bf16
```

***

## Recomendaciones de GPU para Clore.ai

| Carga de trabajo                                  | GPU        | VRAM       | Por qué                                                  | Costo en Clore.ai |
| ------------------------------------------------- | ---------- | ---------- | -------------------------------------------------------- | ----------------- |
| Una sola imagen → escena, desarrollo/vista previa | RTX 4090   | 24 GB      | BF16 cabe cómodamente, iteración rápida                  | \~$0.5–2/día      |
| Reconstrucción de video de múltiples vistas       | A100 40 GB | 40 GB      | Maneja fotogramas de 200K+ px sin OOM                    | \~$3–5/día        |
| Lotes de alta resolución (producción)             | A100 80 GB | 80 GB      | Resolución flexible completa de 500K px, lotes grandes   | \~$5–8/día        |
| FSDP multi-GPU / investigación                    | 2–4× H100  | 160–320 GB | Cargas de trabajo fragmentadas a escala de entrenamiento | \~$15–40/día      |

{% hint style="success" %}
**Punto óptimo en Clore.ai:** una sola **RTX 4090 a \~$0.5–2/día** maneja la inferencia cotidiana de WorldMirror. Sube a una A100 solo cuando necesites reconstrucciones de >200K píxeles o entradas de video largas.
{% endhint %}

***

## Casos de uso

* **Desarrollo de videojuegos** — convierte arte conceptual en entornos 3D básicos para blockout y greybox
* **Contenido AR/VR** — genera escenas Gaussian Splat reproducibles en Unity/Unreal con fidelidad casi fotográfica
* **Previsualización para cine y animación** — reconstruye sets a partir de fotos de rodaje para cinematografía virtual
* **Visualización arquitectónica** — convierte fotos de referencia o breves de texto en recorridos 3D editables
* **Robótica + simulación** — sintetiza entornos de entrenamiento 3D a partir de video real escaso

***

## Hoja de ruta

Tencent ha indicado lo siguiente como "próximamente" en el repositorio oficial:

* **HY-Pano 2.0** — generación de panoramas de 360° (interino: HunyuanWorld 1.0)
* **WorldStereo 2.0** — expansión del mundo / síntesis de nueva vista (interino: WorldStereo original)
* **WorldNav** — planificación de trayectorias para el recorrido de escenas
* **Código completo de la canalización de generación de mundos** — el punto de entrada de texto/imagen → mundo completo

WorldMirror 2.0 (reconstrucción) es hoy el único componente con pesos públicos. Mantente atento a la [página del modelo en HF](https://huggingface.co/tencent/HY-World-2.0) para nuevos lanzamientos.

***

## Solución de problemas

| Problema                                          | Solución                                                                                                                                                   |
| ------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `Memoria CUDA insuficiente` en GPU de 16 GB       | Reduce la resolución de entrada hacia 50K px, o cambia a una RTX 4090 (24 GB). Activa `--enable_bf16`                                                      |
| FSDP se queda colgado al iniciar                  | Asegúrate de que el número de imágenes de entrada sea **≥** `--nproc_per_node`. FSDP también necesita NCCL + CUDA coincidente entre GPUs                   |
| `flash-attn` la instalación falla                 | Prueba una rueda precompilada `pip install flash-attn --no-build-isolation` en CUDA 12.4; si sigue fallando, la canalización funciona (más lenta) sin ella |
| La interfaz de Gradio no es accesible en Clore.ai | Reenvía el puerto 7860 en la configuración del contenedor Clore, o inicia con `--share`                                                                    |
| Preguntas de licencia para uso comercial          | Lee `License.txt` en el repositorio — es `tencent-hy-world-2.0-community`, no OSS estándar                                                                 |

***

## Próximos pasos

* [Hunyuan3D 2.1](/guides/guides_v2-es/generacion-3d/hunyuan3d.md) — el generador de malla a partir de texto/imagen de un solo objeto de Tencent (canalización más pequeña, estilo Apache, caso de uso diferente)
* [TRELLIS 3D](/guides/guides_v2-es/generacion-3d/trellis-3d.md) — el generador estructurado de activos 3D de Microsoft
* [Gaussian Splatting](/guides/guides_v2-es/generacion-3d/gaussian-splatting.md) — canalización de renderizado para las salidas 3DGS que produce HY-World
* [modelo de HuggingFace](https://huggingface.co/tencent/HY-World-2.0)
* [repositorio de GitHub](https://github.com/Tencent-Hunyuan/HY-World-2.0)
* [CLORE.AI Marketplace](https://clore.ai/marketplace)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-es/generacion-3d/hunyuan-world-2.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
