> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/hy3-preview.md).

# Hy3 Preview (Tencent Hunyuan 3, 295B MoE)

{% hint style="info" %}
**Статус (апрель 2026):** Hy3 Preview — первый публичный релиз от **перестроенной обучающей инфраструктуры Tencent Hunyuan**, опубликованный **13 апреля 2026 года** и последний раз обновлённый **23 апреля 2026 года**. Веса доступны по адресу [huggingface.co/tencent/Hy3-preview](https://huggingface.co/tencent/Hy3-preview) под **Лицензия сообщества Tencent Hy**. Поддержка с первого дня появилась в vLLM и SGLang.
{% endhint %}

Hy3 Preview — это **языковая модель Mixture-of-Experts с 295B параметров** , которая активирует только **\~21B параметров на токен** (192 эксперта, маршрутизация top-8). Она ориентирована на две задачи, где Tencent заметно сокращает отставание: **долгосрочное рассуждение** (FrontierScience-Olympiad, IMOAnswerBench, экзамены по математике PhD) и **агентного кодинга** (SWE-bench Verified 74,4%, Terminal-Bench 2.0 54,4%, заявлено вендором). Окно контекста 256K плюс слой спекулятивного декодирования MTP (Multi-Token Prediction) делают её практичной для кодовых агентов уровня IDE и RAG с большим количеством документов.

Для пользователей Clore.ai главная цифра — **21B активных**. Вам не нужен полный кластер 8×H200. Тензорно-параллельное развёртывание на **4×A100 80GB** или **2×H100 80GB** (BF16 с offload) достаточно, чтобы обслуживать модель с приемлемой пропускной способностью — агентное кодирование уровня frontier-класса примерно за $10–20/день на маркетплейсе, при этом веса остаются на вашей собственной машине.

### Ключевые характеристики

| Свойство                   | Значение                                          |
| -------------------------- | ------------------------------------------------- |
| Общее число параметров     | 295B (MoE)                                        |
| Активные параметры         | 21B за один прямой проход                         |
| Эксперты                   | 192 всего, маршрутизация top-8                    |
| Слои                       | 80 трансформерных + 1 MTP                         |
| Внимание                   | 64 головы, GQA с 8 KV-головами, размер головы 128 |
| Скрытый размер             | 4096                                              |
| Промежуточный размер       | 13,312                                            |
| Словарь                    | 120,832                                           |
| Окно контекста             | 256 000 токенов                                   |
| Нативная точность          | BF16                                              |
| Лицензия                   | Лицензия сообщества Tencent Hy                    |
| Дата релиза                | 13 апреля 2026 года                               |
| Организация                | Tencent Hunyuan                                   |
| Основной стек инструментов | vLLM, SGLang, AngelSlim, LLaMA-Factory            |

### Почему Hy3 Preview?

* **Первым на перестроенном RL-стеке Tencent** — Tencent переписала свою обучающую инфраструктуру для этого релиза; ожидайте быструю итерацию в течение 2026 года
* **21B активных MoE** — платите за вычисления инференса как для примерно 21B dense-модели, а не 295B
* **Контекст 256K** — достаточно для целых репозиториев, длинных трасс агентов или много-документного RAG за один запрос
* **Слой MTP для спекулятивного декодирования** — встроенное предсказание нескольких токенов даёт ускорение декодирования примерно в 1,5–2× на GPU класса Hopper
* **Два режима рассуждения** — `reasoning_effort: "high"` для chain-of-thought, `"no_think"` для быстрых прямых ответов
* **Фокус на агентном кодировании** — явно настроена для многоходового использования инструментов в стиле SWE-bench и терминальных агентов
* **Лицензия, дружественная к open source** — Tencent Hy Community License по стилю похожа на Apache для большинства применений; проверьте файл LICENSE для вашего случая

***

## Требования

{% hint style="warning" %}
**Всё ещё модель класса 295B.** "21B active" описывает вычисления инференса, а не объём памяти. Полные BF16-веса занимают около 590GB и должны находиться в VRAM (или быть выгружены). Планируйте 8×H100/H200, если нужна неограниченная пропускная способность; 4×A100 80GB работают с offload и более короткими контекстами.
{% endhint %}

| Компонент | Минимум (Q4 GGUF, offload)   | Рекомендуется (BF16, TP) | Полный BF16 (production)   |
| --------- | ---------------------------- | ------------------------ | -------------------------- |
| VRAM GPU  | \~80GB + offload в 256GB RAM | 4× A100 80GB (320GB)     | 8× H100 80GB или 8× H20-3e |
| RAM       | 256 ГБ                       | 384GB                    | 512 ГБ                     |
| Диск      | 700GB NVMe                   | 1TB NVMe                 | 1.5TB NVMe                 |
| CUDA      | 12.4+                        | 12.4+                    | 12.6+                      |
| Драйвер   | 550+                         | 550+                     | 560+                       |

**Выбор Clore.ai:** Для большинства команд **4× A100 80GB** с BF16 tensor-parallel и `--max-model-len 65536` — это оптимальный вариант (\~$10–16/день). Если вам нужен полный контекст 256K с одновременными пользователями, переходите на 8× H100.

***

## Вариант A — Ollama / GGUF (квантизированные, community-сборки)

{% hint style="warning" %}
**Важное замечание:** Hy3 Preview — совершенно новая модель (13 апреля 2026) и использует кастомную архитектуру MoE. Поддержка community llama.cpp / GGUF обычно появляется **через 2–4 недели** после релиза. Если вам это нужно сегодня, используйте vLLM (Вариант B). Проверьте [huggingface.co/models?search=hy3-preview+gguf](https://huggingface.co/models?search=hy3-preview+gguf) на наличие community-квантов перед загрузкой.
{% endhint %}

```bash
# Когда будет опубликована сборка Q4_K_M
docker exec ollama ollama pull hy3-preview:q4_K_M
docker exec ollama ollama run hy3-preview:q4_K_M

# Или напрямую с llama.cpp на community GGUF
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/hy3-preview-q4_k_m.gguf \\
  --n-gpu-layers 80 --ctx-size 32768 \
  --port 8080 --host 0.0.0.0
```

До появления GGUF AngelSlim (собственный набор инструментов квантизации Tencent) может напрямую создавать веса W4A16 / W8A8 из BF16-чекпойнта.

***

## Вариант B — vLLM (продакшен API, рекомендуется)

vLLM — приоритетная цель Tencent для обслуживания Hy3 Preview. Слой спекулятивного декодирования MTP подключается через `--speculative-config.method mtp`.

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model tencent/Hy3-preview
      --tensor-parallel-size 8
      --max-model-len 65536
      --gpu-memory-utilization 0.90
      --speculative-config.method mtp
      --speculative-config.num_speculative_tokens 1
      --tool-call-parser hy_v3
      --reasoning-parser hy_v3
      --enable-auto-tool-choice
      --served-model-name hy3-preview
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Проверьте API с высоким уровнем reasoning effort
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "hy3-preview",
    "messages": [
      {"role": "system", "content": "Вы — экспертный инженер-программист."},
      {"role": "user", "content": "Рефакторьте эту Python-функцию, чтобы использовать async/await, и добавьте корректную обработку ошибок."}
    ],
    "max_tokens": 4096,
    "temperature": 0.9,
    "top_p": 1.0,
    "reasoning_effort": "high"
  }'
```

{% hint style="info" %}
**Режимы рассуждения.** Установите `reasoning_effort: "high"` чтобы включить трассы chain-of-thought (медленнее, но намного лучше для математики/кодинга/агентных задач) или `"no_think"` для быстрых прямых ответов. Рекомендуемые вендором параметры сэмплирования: `temperature=0.9, top_p=1.0` — сэмплирование с нулевой температурой может ломать трассы рассуждения.
{% endhint %}

{% hint style="info" %}
**Мало GPU?** Опуститесь до `--tensor-parallel-size 4` на 4× A100 80GB. Оставьте `--max-model-len 32768` и добавьте `--enable-chunked-prefill` чтобы сохранить разумную задержку prefill.
{% endhint %}

***

## Вариант C — SGLang

SGLang поставляется с поддержкой с первого дня и сочетает слой MTP с EAGLE speculative decoding для дополнительной пропускной способности на Hopper.

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \
  --model tencent/Hy3-preview \\
  --tp 8 \\
  --tool-call-parser hunyuan \\
  --reasoning-parser hunyuan \\
  --speculative-algorithm EAGLE \
  --speculative-num-steps 1 \\
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 2 \\
  --mem-fraction-static 0.88 \
  --context-length 65536 \
  --served-model-name hy3-preview
```

Ожидайте прирост пропускной способности в 1,5–2× на длинных агентных циклах по сравнению с обычным декодированием.

***

## Рекомендации по GPU для Clore.ai

| Конфигурация  | VRAM    | Ожидаемая производительность                        | Стоимость на Clore.ai | Арендовать                                                   |
| ------------- | ------- | --------------------------------------------------- | --------------------- | ------------------------------------------------------------ |
| 4× A100 80GB  | 320 ГБ  | BF16 шардированный, контекст 64K, \~15–25 токенов/с | \~$10–16/день         | [Арендовать A100 80GB](https://clore.ai/rent-a100-80gb.html) |
| 2× H100 80GB  | 160GB   | BF16 с offload, меньший контекст, \~12–20 токенов/с | \~$12–18/день         | [Арендовать H100](https://clore.ai/rent-h100.html)           |
| 8× H100 80GB  | 640 ГБ  | Полный BF16, контекст 256K, 60+ токенов/с с MTP     | \~$48–64/день         | [Арендовать H100](https://clore.ai/rent-h100.html)           |
| 8× H200 141GB | 1 128GB | Полный BF16 + максимальная параллельность           | \~$64–96/день         | [Арендовать H200](https://clore.ai/rent-h200.html)           |
| 1× RTX 5090   | 32GB    | Q4 GGUF, offload в RAM, один пользователь           | \~$3.94/час           | [Маркетплейс](https://clore.ai/marketplace)                  |

{% hint style="success" %}
**Лучшая цена/качество:** 4× A100 80GB с BF16 tensor-parallel и окном контекста 64K. Вы получаете agentic coder класса 295B с открытыми весами примерно по цене подписки Claude Pro, и веса никогда не покидают арендованную вами машину.
{% endhint %}

***

## Сценарии использования

* **Автономные SWE-агенты** — 74,4% SWE-bench Verified (заявлено вендором) и явная оптимизация под длинные циклы вызова инструментов; используйте вместе с OpenHands, SWE-agent или Aider
* **Агенты, управляемые терминалом** — 54,4% Terminal-Bench 2.0 выводят её в топ-класс для shell/CLI-процессов
* **Долгосрочное рассуждение** — математика уровня олимпиад (IMOAnswerBench, FrontierScience-Olympiad) и STEM уровня PhD
* **RAG на уровне кодовой базы** — контекст 256K помещает целый репозиторий среднего размера плюс тесты в один промпт
* **Агенты для поиска и веб-сёрфинга** — настройка BrowseComp / WideSearch делает её сильным планировщиком для многошагового веб-исследования
* **Агент из агентов** — используйте Hy3 Preview как планировщик и более лёгкие открытые модели ([Qwen3.5](/guides/guides_v2-ru/yazykovye-modeli/qwen35.md), [GLM-4.7 Flash](/guides/guides_v2-ru/yazykovye-modeli/glm-47-flash.md)) как исполнителей

***

## Бенчмарки

{% hint style="warning" %}
**Указано производителем — проверяйте независимо.** Все числа ниже взяты из модельной карточки Tencent от 13 апреля 2026 года. Независимые воспроизведения (особенно по SWE-bench Verified) всё ещё продолжают появляться. Считайте их верхними границами, пока LMSYS / OpenCompass не подтвердят.
{% endhint %}

| Бенчмарк           | Hy3 Preview | GLM-5.1 | DeepSeek R1 | GPT-5.4 |
| ------------------ | ----------- | ------- | ----------- | ------- |
| SWE-bench Verified | **74.4%**   | \~79%   | \~71%       | \~78%   |
| Terminal-Bench 2.0 | **54.4%**   | —       | —           | —       |
| GPQA Diamond       | **87.2%**   | —       | \~84%       | \~88%   |
| SuperGPQA          | 51.6%       | —       | —           | —       |
| HLE                | \~30        | —       | —           | —       |

Tencent также сообщает о сильных результатах на проприетарных бенчмарках CL-bench / CL-bench-Life для обучения на контексте и на экзамене Tsinghua Qiuzhen Math PhD (весна 2026).

***

## Устранение неполадок

| Проблема                                | Решение                                                                                                                                                                  |
| --------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| `OutOfMemoryError` при загрузке         | Для BF16 требуется около 590GB общей VRAM. Понизьте до 4×A100 с `--max-model-len 32768` или используйте кванты AngelSlim W4A16.                                          |
| Медленная загрузка с HuggingFace        | Используйте `huggingface-cli download tencent/Hy3-preview --local-dir ./weights --resume-download`. Ожидайте 590GB+.                                                     |
| Вызовы инструментов тихо отбрасываются  | Убедитесь, что `--tool-call-parser hy_v3` (vLLM) или `--tool-call-parser hunyuan` (SGLang) установлен, и `--enable-auto-tool-choice` включён.                            |
| Пустая / неверная трасса рассуждения    | Используйте `temperature=0.9, top_p=1.0`. Жадное декодирование с нулевой температурой ломает chain-of-thought. Проверьте `reasoning_effort: "high"`.                     |
| Ошибки спекулятивного декодирования MTP | Требуется свежая версия vLLM (сборка после апреля 2026). Запустите `pip install -U vllm --pre` или закрепитесь за тегом, в примечаниях к релизу которого указано `mtp` . |
| OOM при контексте 256K                  | Начните с `--max-model-len 32768`, включите `--enable-chunked-prefill`, повышайте постепенно. Для полного 256K реалистично требуется 8× H200.                            |
| Кастомная архитектура отклонена         | Всегда передавайте `--trust-remote-code`. Hy3 поставляется с пользовательским кодом моделирования в чекпойнте.                                                           |
| Ollama / GGUF недоступны                | Community-кванты обычно появляются через 2–4 недели после релиза. Тем временем используйте vLLM или AngelSlim.                                                           |

***

## Следующие шаги

* **Ближайший открытый аналог:** [GLM-5.1](/guides/guides_v2-ru/yazykovye-modeli/glm-5-1.md) — MoE 744B / 40B-active, лицензия MIT, лучшие результаты по SWE-bench Pro
* **Мультимодальная альтернатива:** [Qwen3.5-Omni](/guides/guides_v2-ru/yazykovye-modeli/qwen35-omni.md) — текст + аудио + изображение + видео, работает на одной RTX 4090
* **Альтернатива только для рассуждений:** [DeepSeek R1](/guides/guides_v2-ru/yazykovye-modeli/deepseek-r1.md) — чистый специалист по длинному рассуждению
* **Аренда железа:** [Арендовать A100 80GB на Clore.ai](https://clore.ai/rent-a100-80gb.html) — экземпляры 4× A100 80GB от \~$10/день
* **Полный маркетплейс:** [clore.ai/marketplace](https://clore.ai/marketplace) — H100, H200, A100, RTX 5090 от $0.50/день

### Ссылки

* [Hy3 Preview на HuggingFace](https://huggingface.co/tencent/Hy3-preview)
* [GitHub-репозиторий Hy3 Preview](https://github.com/Tencent-Hunyuan/Hy3-preview)
* [Организация Tencent Hunyuan](https://huggingface.co/tencent)
* [Документация vLLM](https://docs.vllm.ai)
* [Репозиторий SGLang](https://github.com/sgl-project/sglang)
* [AngelSlim — набор инструментов квантизации Tencent](https://github.com/Tencent/AngelSlim)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/hy3-preview.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.