# Hunyuan World 2.0 (3D-модель мира)

{% hint style="info" %}
**Выпущено 15 апреля 2026 года** — Tencent Hunyuan выпустила **HY-World 2.0**, первую полностью open-source SOTA-модель 3D-мира. Это руководство охватывает **WorldMirror 2.0** (поставляемый компонент реконструкции с \~1,2 млрд параметров). Родственные модели **HY-Pano 2.0** и **WorldStereo 2.0** помечены как «скоро» в официальном репозитории — см. [Дорожную карту](#roadmap) ниже.
{% endhint %}

HY-World 2.0 — это мульти-модальная фреймворк-модель мира Tencent для **реконструкции, генерации и симуляции полных 3D-сцен**. В отличие от генераторов мешей для отдельных объектов, HY-World принимает текст, одно- или многовидовые изображения либо видео и выдаёт редактируемые представления мира — меши, 3D Gaussian Splat, облака точек, карты глубины, нормали поверхности и восстановленные параметры камеры — готовые к использованию в Unity, Unreal или Blender.

Первые публичные веса охватывают **WorldMirror 2.0** (\~1,2 млрд параметров, BF16) — половину стека, отвечающую за реконструкцию. Оно работает примерно на 12–24 ГБ VRAM на одном GPU и поддерживает гибкое разрешение от 50K до 500K пикселей, а также шардирование FSDP на нескольких GPU для более крупных задач. Python API (`в стиле diffusers`), CLI через `torchrun`, и демо на Gradio идут из коробки. Узел ComfyUI **не** является официальным — только реализации от сообщества.

{% hint style="success" %}
Все примеры в этом руководстве запускаются на GPU-серверах, арендованных через [CLORE.AI Marketplace](https://clore.ai/marketplace).
{% endhint %}

### Ключевые характеристики

| Свойство            | Значение                                                                      |
| ------------------- | ----------------------------------------------------------------------------- |
| Компонент           | WorldMirror 2.0 (поставляется); HY-Pano 2.0 + WorldStereo 2.0 скоро           |
| Параметры           | \~1,2 млрд (BF16)                                                             |
| Типы входных данных | Текст · изображение с одного ракурса · многовидовые изображения · видео       |
| Вывод               | Меш · 3D Gaussian Splat · облако точек · глубина · нормали · параметры камеры |
| VRAM                | \~12–24 ГБ на одном GPU; FSDP для нескольких GPU                              |
| Диапазон разрешений | 50K – 500K пикселей (гибкое разрешение)                                       |
| Лицензия            | `tencent-hy-world-2.0-community` (кастомная — см. ниже)                       |
| Релиз               | 2026-04-15                                                                    |

{% hint style="warning" %}
**Оговорка по лицензии:** HY-World 2.0 поставляется под кастомной общественной лицензией (`License.txt` в корне репозитория), **не** Apache 2.0 или MIT. Условия коммерческого использования отличаются от Hunyuan3D 2.1 от Tencent. Прочитайте полную лицензию, прежде чем выпускать что-либо, созданное на её основе.
{% endhint %}

### Почему HY-World 2.0?

* **Первая open-source SOTA-модель мира** — в этой категории нет закрытых конкурентов
* **Полный вывод сцены, а не только меши** — Gaussian Splat + геометрия + камера за один проход
* **Мульти-модальные входы** — один и тот же конвейер работает с текстом, изображениями и видео
* **Готовность к FSDP** — масштабирование на 2–8 GPU для высоких разрешений или пакетного инференса
* **Готово для игровых движков** — результаты можно сразу загружать в Unity, Unreal и Blender

***

## Требования

| Компонент     | Минимум                 | Рекомендуется                     |
| ------------- | ----------------------- | --------------------------------- |
| VRAM GPU      | 16 ГБ (RTX 4080 / 3090) | 24–80 ГБ (RTX 4090 / A100 / H100) |
| Системная RAM | 32 ГБ                   | 64–128 ГБ                         |
| Диск          | 80 ГБ                   | 200 ГБ                            |
| CUDA          | 12.1                    | 12.4+                             |
| Python        | 3.10                    | 3.10                              |
| PyTorch       | 2.4.0                   | 2.4.0+                            |

{% hint style="info" %}
Режим с несколькими GPU требует **≥ 1 входного изображения на GPU**. Для одного референсного изображения используйте один GPU и включайте FSDP только для пакетных или высокоразрешённых задач.
{% endhint %}

***

## Вариант A — быстрый старт с Docker + torchrun

Минимальный `docker-compose.yml` для контейнера Clore.ai (официальный образ Tencent пока не опубликован — здесь используется базовый PyTorch и выполняется установка репозитория внутри):

```yaml
version: "3.8"
services:
  hyworld2:
    image: pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel
    ports:
      - "7860:7860"
    volumes:
      - ./workspace:/workspace
      - hf_cache:/root/.cache/huggingface
    working_dir: /workspace
    command: >
      bash -c "
        git clone https://github.com/Tencent-Hunyuan/HY-World-2.0 &&
        cd HY-World-2.0 &&
        pip install -r requirements.txt &&
        pip install flash-attn --no-build-isolation &&
        python -m hyworld2.worldrecon.gradio_app
      "
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

Запустите многo-GPU задачу реконструкции с FSDP и BF16:

```bash
torchrun --nproc_per_node=2 -m hyworld2.worldrecon.pipeline \
    --input_path /workspace/input_images \
    --use_fsdp --enable_bf16
```

***

## Вариант B — ручной Python API

```bash
# Клонировать и установить
git clone https://github.com/Tencent-Hunyuan/HY-World-2.0
cd HY-World-2.0
conda create -n hyworld2 python=3.10 -y
conda activate hyworld2
pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
```

```python
from hyworld2.worldrecon.pipeline import WorldMirrorPipeline

# Загружает веса ~1,2 млрд BF16 из HF (tencent/HY-World-2.0)
pipeline = WorldMirrorPipeline.from_pretrained('tencent/HY-World-2.0')

# Восстановить 3D-сцену из папки с многовидовыми изображениями
result = pipeline('path/to/images')

# Опционально: добавить предварительные данные камеры и глубины для более точной реконструкции
result = pipeline(
    'path/to/images',
    prior_cam_path='path/to/prior_camera.json',
    prior_depth_path='path/to/prior_depth/',
)
```

Запустите демо Gradio на порту 7860:

```bash
python -m hyworld2.worldrecon.gradio_app
```

Для Gradio на нескольких GPU с FSDP:

```bash
torchrun --nproc_per_node=2 -m hyworld2.worldrecon.gradio_app \
    --use_fsdp --enable_bf16
```

***

## Рекомендации по GPU для Clore.ai

| Нагрузка                                            | GPU        | VRAM       | Почему                                              | Стоимость на Clore.ai |
| --------------------------------------------------- | ---------- | ---------- | --------------------------------------------------- | --------------------- |
| Одно изображение → сцена, dev/preview               | RTX 4090   | 24 ГБ      | BF16 комфортно помещается, быстрая итерация         | \~$0.5–2/день         |
| Реконструкция видео с нескольких ракурсов           | A100 40 ГБ | 40 ГБ      | Обрабатывает кадры 200K+ пикселей без OOM           | \~$3–5/день           |
| Пакетная обработка высокого разрешения (production) | A100 80 ГБ | 80 ГБ      | Полный гибкий режим до 500K пикселей, большие батчи | \~$5–8/день           |
| FSDP multi-GPU / исследование                       | 2–4× H100  | 160–320 ГБ | Шардированные нагрузки масштаба обучения            | \~$15–40/день         |

{% hint style="success" %}
**Оптимальный вариант на Clore.ai:** одна **RTX 4090 примерно за \~$0.5–2/день** справляется с обычным инференсом WorldMirror. Переходите на A100 только когда нужны реконструкции свыше 200K пикселей или длинные входы в видео.
{% endhint %}

***

## Сценарии использования

* **Разработка игр** — превращайте концепт-арт в грубые 3D-окружения для blockout и greybox
* **AR/VR-контент** — генерируйте сцены Gaussian Splat, воспроизводимые в Unity/Unreal с почти фотографической точностью
* **Превиз для кино и анимации** — восстанавливайте съёмочные площадки по фотографиям с локации для виртуальной кинематографии
* **Архитектурная визуализация** — преобразуйте референсные снимки или текстовые брифы в редактируемые 3D-обходы
* **Робототехника + симуляция** — синтезируйте 3D-среды для обучения из разреженных реальных видеоматериалов

***

## Дорожную карту

Tencent указала следующее как «скоро» в официальном репозитории:

* **HY-Pano 2.0** — генерация панорам 360° (временно: HunyuanWorld 1.0)
* **WorldStereo 2.0** — расширение мира / синтез нового ракурса (временно: оригинальный WorldStereo)
* **WorldNav** — планирование траектории для прохождения сцены
* **Полный код пайплайна генерации мира** — точка входа text/image → full world

WorldMirror 2.0 (reconstruction) — единственный компонент с публичными весами на сегодня. Следите за [страницей модели на HF](https://huggingface.co/tencent/HY-World-2.0) за новыми релизами.

***

## Устранение неполадок

| Проблема                                            | Решение                                                                                                                                                            |
| --------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| `CUDA out of memory` на 16 ГБ GPU                   | Уменьшите входное разрешение до 50K пикселей или переключитесь на RTX 4090 (24 ГБ). Включите `--enable_bf16`                                                       |
| FSDP зависает при запуске                           | Убедитесь, что число входных изображений **≥** `--nproc_per_node`. FSDP также требует NCCL и одинаковую версию CUDA на всех GPU                                    |
| `flash-attn` не удаётся установить                  | Попробуйте готовый wheel `pip install flash-attn --no-build-isolation` для CUDA 12.4; если всё равно не получается, pipeline будет работать (медленнее) и без него |
| Интерфейс Gradio недоступен на Clore.ai             | Пробросьте порт 7860 в конфигурации контейнера Clore или запускайте с `--share`                                                                                    |
| Вопросы по лицензии для коммерческого использования | Прочитайте `License.txt` в репозитории — она `tencent-hy-world-2.0-community`не является стандартной OSS                                                           |

***

## Следующие шаги

* [Hunyuan3D 2.1](/guides/guides_v2-ru/generaciya-3d/hunyuan3d.md) — генератор мешей из текста/изображения для одного объекта от Tencent (меньший, конвейер в стиле Apache, другой сценарий использования)
* [TRELLIS 3D](/guides/guides_v2-ru/generaciya-3d/trellis-3d.md) — структурированный генератор 3D-объектов от Microsoft
* [Gaussian Splatting](/guides/guides_v2-ru/generaciya-3d/gaussian-splatting.md) — рендер-пайплайн для 3DGS-выводов, которые создаёт HY-World
* [Модель HuggingFace](https://huggingface.co/tencent/HY-World-2.0)
* [Репозиторий GitHub](https://github.com/Tencent-Hunyuan/HY-World-2.0)
* [CLORE.AI Marketplace](https://clore.ai/marketplace)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/generaciya-3d/hunyuan-world-2.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
