# Hy3 Preview (Tencent Hunyuan 3, 295B MoE)

{% hint style="info" %}
**Estado (abril de 2026):** Hy3 Preview es la primera versión pública de **la infraestructura de entrenamiento reconstruida de Tencent Hunyuan** , publicada el **13 de abril de 2026** y actualizada por última vez el **23 de abril de 2026**. Los pesos están en [huggingface.co/tencent/Hy3-preview](https://huggingface.co/tencent/Hy3-preview) bajo la **Licencia de la comunidad Tencent Hy**. El soporte desde el día 0 llegó en vLLM y SGLang.
{% endhint %}

Hy3 Preview es un **modelo de lenguaje Mixture-of-Experts de 295B parámetros** que activa solo **\~21B parámetros por token** (192 expertos, enrutamiento top-8). Está dirigido a dos cargas de trabajo en las que Tencent ha estado claramente alcanzando terreno: **razonamiento de largo alcance** (FrontierScience-Olympiad, IMOAnswerBench, exámenes de matemáticas de doctorado) y **codificación agéntica** (SWE-bench Verified 74.4%, Terminal-Bench 2.0 54.4%, según afirma el proveedor). La ventana de contexto de 256K, junto con una capa especulativa MTP (Multi-Token Prediction), lo hace práctico para agentes de programación a escala de IDE y RAG con muchos documentos.

Para los usuarios de Clore.ai, la cifra clave es **21B activos**. No necesitas un rack completo de 8×H200. Una implementación con paralelismo de tensores en **4×A100 80GB** o **2×H100 80GB** (BF16 con descarga) es suficiente para ofrecerlo con un rendimiento usable: programación agéntica de nivel fronterizo por \~$10–20/día en el mercado, con los pesos permaneciendo en tu propia máquina.

### Especificaciones clave

| Propiedad                | Valor                                                     |
| ------------------------ | --------------------------------------------------------- |
| Parámetros totales       | 295B (MoE)                                                |
| Parámetros activos       | 21B por pasada hacia adelante                             |
| Expertos                 | 192 en total, enrutamiento top-8                          |
| Capas                    | 80 transformer + 1 MTP                                    |
| Atención                 | 64 cabezas, GQA con 8 cabezas KV, dimensión de cabeza 128 |
| Tamaño oculto            | 4096                                                      |
| Tamaño intermedio        | 13,312                                                    |
| Vocabulario              | 120,832                                                   |
| Ventana de contexto      | 256.000 tokens                                            |
| Precisión nativa         | BF16                                                      |
| Licencia                 | Licencia de la comunidad Tencent Hy                       |
| Fecha de lanzamiento     | 13 de abril de 2026                                       |
| Organización             | Tencent Hunyuan                                           |
| Herramientas principales | vLLM, SGLang, AngelSlim, LLaMA-Factory                    |

### ¿Por qué Hy3 Preview?

* **Primero en la pila de RL reconstruida de Tencent** — Tencent reescribió su infraestructura de entrenamiento para esta versión; se espera una iteración rápida durante 2026
* **MoE activo de 21B** — pagas el costo de inferencia de un modelo denso de \~21B, no de 295B
* **Contexto de 256K** — suficiente para repos completos, trazas largas de agentes o RAG de múltiples documentos en una sola pasada
* **Capa especulativa MTP** — la predicción multítoken integrada proporciona aceleraciones de decodificación de \~1.5–2× en GPUs de clase Hopper
* **Dos modos de razonamiento** — `reasoning_effort: "high"` para cadena de pensamiento, `"no_think"` para respuestas directas rápidas
* **Enfoque en programación agéntica** — ajustado explícitamente para uso de herramientas en múltiples turnos al estilo SWE-bench y agentes de terminal
* **Licencia favorable al open source** — la Licencia de la comunidad Tencent Hy es de estilo Apache para la mayoría de los usos; verifica el archivo LICENSE para tu caso

***

## Requisitos

{% hint style="warning" %}
**Sigue siendo un modelo de clase 295B.** "21B activos" describe el cómputo de inferencia, no la huella de memoria. Los pesos BF16 completos son \~590GB y deben residir en VRAM (o ser descargados). Planifica 8×H100/H200 si quieres un rendimiento sin restricciones; 4×A100 80GB funciona con descarga y contextos más cortos.
{% endhint %}

| Componente  | Mínimo (Q4 GGUF, descarga)       | Recomendado (BF16, TP) | BF16 completo (producción) |
| ----------- | -------------------------------- | ---------------------- | -------------------------- |
| VRAM de GPU | \~80GB + descarga a RAM de 256GB | 4× A100 80GB (320GB)   | 8× H100 80GB o 8× H20-3e   |
| RAM         | 256GB                            | 384GB                  | 512GB                      |
| Disco       | 700GB NVMe                       | 1TB NVMe               | 1.5TB NVMe                 |
| CUDA        | 12.4+                            | 12.4+                  | 12.6+                      |
| Controlador | 550+                             | 550+                   | 560+                       |

**Elección de Clore.ai:** Para la mayoría de los equipos, **4× A100 80GB** con paralelismo tensorial BF16 y `--max-model-len 65536` es el punto óptimo (\~$10–16/día). Si necesitas el contexto completo de 256K con usuarios concurrentes, salta a 8× H100.

***

## Opción A — Ollama / GGUF (cuantizado, compilaciones de la comunidad)

{% hint style="warning" %}
**Aviso:** Hy3 Preview es muy nuevo (13 de abril de 2026) y usa una arquitectura MoE personalizada. El soporte comunitario de llama.cpp / GGUF suele llegar **2–4 semanas** después del lanzamiento. Si lo necesitas hoy, usa vLLM (Opción B). Consulta [huggingface.co/models?search=hy3-preview+gguf](https://huggingface.co/models?search=hy3-preview+gguf) para cuantizaciones de la comunidad antes de descargar.
{% endhint %}

```bash
# Una vez que se publique una compilación Q4_K_M
docker exec ollama ollama pull hy3-preview:q4_K_M
docker exec ollama ollama run hy3-preview:q4_K_M

# O con llama.cpp directamente sobre un GGUF de la comunidad
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/hy3-preview-q4_k_m.gguf \\
  --n-gpu-layers 80 --ctx-size 32768 \
  --port 8080 --host 0.0.0.0
```

Antes de la llegada de GGUF, AngelSlim (la propia caja de herramientas de cuantización de Tencent) puede generar pesos W4A16 / W8A8 directamente desde el checkpoint BF16.

***

## Opción B — vLLM (API de producción, recomendado)

vLLM es el objetivo de servicio de primera clase de Tencent para Hy3 Preview. La capa especulativa MTP se integra mediante `--speculative-config.method mtp`.

```yaml
version: "3.8"
servicios:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model tencent/Hy3-preview
      --tensor-parallel-size 8
      --max-model-len 65536
      --gpu-memory-utilization 0.90
      --speculative-config.method mtp
      --speculative-config.num_speculative_tokens 1
      --tool-call-parser hy_v3
      --reasoning-parser hy_v3
      --enable-auto-tool-choice
      --served-model-name hy3-preview
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Prueba la API con un alto esfuerzo de razonamiento
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "hy3-preview",
    "messages": [
      {"role": "system", "content": "Eres un ingeniero de software experto."},
      {"role": "user", "content": "Refactoriza esta función de Python para usar async/await y agrega un manejo de errores adecuado."}
    ],
    "max_tokens": 4096,
    "temperature": 0.9,
    "top_p": 1.0,
    "reasoning_effort": "high"
  }'
```

{% hint style="info" %}
**Modos de razonamiento.** Configura `reasoning_effort: "high"` para habilitar trazas de cadena de pensamiento (más lento, mucho mejor en tareas de matemáticas/código/agentes) o `"no_think"` para respuestas directas rápidas. El muestreo recomendado por el proveedor es `temperature=0.9, top_p=1.0` — el muestreo con temperatura cero puede romper las trazas de razonamiento.
{% endhint %}

{% hint style="info" %}
**¿Escaso de GPUs?** Reduce a `--tensor-parallel-size 4` en 4× A100 80GB. Mantén `--max-model-len 32768` y añade `--enable-chunked-prefill` para mantener razonable la latencia de prefill.
{% endhint %}

***

## Opción C — SGLang

SGLang ofrece soporte desde el día 0 y combina la capa MTP con decodificación especulativa EAGLE para obtener rendimiento adicional en Hopper.

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \
  --model tencent/Hy3-preview \\
  --tp 8 \\
  --tool-call-parser hunyuan \\
  --reasoning-parser hunyuan \\
  --speculative-algorithm EAGLE \
  --speculative-num-steps 1 \\
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 2 \\
  --mem-fraction-static 0.88 \
  --context-length 65536 \
  --served-model-name hy3-preview
```

Espera una mejora de rendimiento de 1.5–2× en bucles largos de agentes en comparación con la decodificación estándar.

***

## Recomendaciones de GPU de Clore.ai

| Configuración | VRAM    | Rendimiento esperado                                   | Coste en Clore.ai | Alquilar                                                 |
| ------------- | ------- | ------------------------------------------------------ | ----------------- | -------------------------------------------------------- |
| 4× A100 80GB  | 320GB   | BF16 fragmentado, contexto de 64K, \~15–25 tok/s       | \~$10–16/día      | [Rentar A100 80GB](https://clore.ai/rent-a100-80gb.html) |
| 2× H100 80GB  | 160GB   | BF16 con descarga, contexto más pequeño, \~12–20 tok/s | \~$12–18/día      | [Alquilar H100](https://clore.ai/rent-h100.html)         |
| 8× H100 80GB  | 640GB   | BF16 completo, contexto de 256K, 60+ tok/s con MTP     | \~$48–64/día      | [Alquilar H100](https://clore.ai/rent-h100.html)         |
| 8× H200 141GB | 1,128GB | BF16 completo + máxima concurrencia                    | \~$64–96/día      | [Alquilar H200](https://clore.ai/rent-h200.html)         |
| 1× RTX 5090   | 32GB    | Q4 GGUF, descarga a RAM, usuario único                 | \~$3.94/h         | [Mercado](https://clore.ai/marketplace)                  |

{% hint style="success" %}
**Mejor valor:** 4× A100 80GB con paralelismo tensorial BF16 y una ventana de contexto de 64K. Obtienes un programador agéntico de clase 295B de peso abierto por aproximadamente el precio de una suscripción Claude Pro, y los pesos nunca salen de tu máquina alquilada.
{% endhint %}

***

## Casos de uso

* **Agentes SWE autónomos** — 74.4% SWE-bench Verified (según afirma el proveedor) y ajuste explícito para bucles largos de llamadas a herramientas; combínalo con OpenHands, SWE-agent o Aider
* **Agentes dirigidos por terminal** — 54.4% en Terminal-Bench 2.0 lo sitúa en la élite para flujos de trabajo de shell/CLI
* **Razonamiento de largo alcance** — matemáticas de nivel olimpiada (IMOAnswerBench, FrontierScience-Olympiad) y STEM de nivel doctorado
* **RAG a escala de base de código** — 256K de contexto caben un repositorio completo de tamaño medio más pruebas en un solo prompt
* **Agentes de búsqueda y navegación** — el ajuste de BrowseComp / WideSearch lo convierte en un gran planificador para investigación web de varios pasos
* **Agente de agentes** — usa Hy3 Preview como planificador y modelos abiertos más ligeros ([Qwen3.5](/guides/guides_v2-es/modelos-de-lenguaje/qwen35.md), [GLM-4.7 Flash](/guides/guides_v2-es/modelos-de-lenguaje/glm-47-flash.md)) como trabajadores

***

## Benchmarks

{% hint style="warning" %}
**Afirmado por el proveedor — verificar de forma independiente.** Todas las cifras a continuación provienen de la tarjeta de modelo de Tencent del 13 de abril de 2026. Las reproducciones independientes (especialmente en SWE-bench Verified) aún están llegando. Considéralas cotas superiores hasta que LMSYS / OpenCompass lo confirme.
{% endhint %}

| Benchmark          | Hy3 Preview | GLM-5.1 | DeepSeek R1 | GPT-5.4 |
| ------------------ | ----------- | ------- | ----------- | ------- |
| SWE-bench Verified | **74.4%**   | \~79%   | \~71%       | \~78%   |
| Terminal-Bench 2.0 | **54.4%**   | —       | —           | —       |
| GPQA Diamond       | **87.2%**   | —       | \~84%       | \~88%   |
| SuperGPQA          | 51.6%       | —       | —           | —       |
| HLE                | \~30        | —       | —           | —       |

Tencent también informa de resultados sólidos en los puntos de referencia patentados CL-bench / CL-bench-Life de aprendizaje contextual y en el examen de doctorado en matemáticas Qiuzhen de la Universidad de Tsinghua (primavera de 2026).

***

## Solución de problemas

| Problema                                              | Solución                                                                                                                                                                      |
| ----------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` al cargar                          | BF16 necesita \~590GB de VRAM total. Baja a 4×A100 con `--max-model-len 32768` o usa cuantizaciones AngelSlim W4A16.                                                          |
| Descarga lenta de HuggingFace                         | Usa `huggingface-cli download tencent/Hy3-preview --local-dir ./weights --resume-download`. Espera 590GB+.                                                                    |
| Las llamadas a herramientas se omiten silenciosamente | Asegúrate de que `--tool-call-parser hy_v3` (vLLM) o `--tool-call-parser hunyuan` (SGLang) esté configurado, y `--enable-auto-tool-choice` esté activado.                     |
| La traza de razonamiento está vacía / incorrecta      | Usa `temperature=0.9, top_p=1.0`. La decodificación codiciosa con temperatura cero rompe la cadena de pensamiento. Confirma `reasoning_effort: "high"`.                       |
| Errores de decodificación especulativa MTP            | Requiere una vLLM reciente (compilación posterior a abril de 2026). Ejecuta `pip install -U vllm --pre` o fíjalo a una etiqueta que indique `mtp` en las notas de la versión. |
| OOM con contexto de 256K                              | Empieza en `--max-model-len 32768`, habilita `--enable-chunked-prefill`, aumenta gradualmente. El contexto completo de 256K realmente necesita 8× H200.                       |
| Arquitectura personalizada rechazada                  | Pasa siempre `--trust-remote-code`. Hy3 incluye código de modelado personalizado con el checkpoint.                                                                           |
| Ollama / GGUF no disponible                           | Las cuantizaciones de la comunidad suelen llegar entre 2 y 4 semanas después del lanzamiento. Usa vLLM o AngelSlim mientras tanto.                                            |

***

## Siguientes pasos

* **Par más cercano de peso abierto:** [GLM-5.1](/guides/guides_v2-es/modelos-de-lenguaje/glm-5-1.md) — MoE de 744B / 40B activos, licencia MIT, puntuaciones máximas en SWE-bench Pro
* **Alternativa multimodal:** [Qwen3.5-Omni](/guides/guides_v2-es/modelos-de-lenguaje/qwen35-omni.md) — texto + audio + imagen + video, se ejecuta en una sola RTX 4090
* **Alternativa centrada solo en razonamiento:** [DeepSeek R1](/guides/guides_v2-es/modelos-de-lenguaje/deepseek-r1.md) — especialista puro en razonamiento de formato largo
* **Alquila el hardware:** [Alquilar A100 80GB en Clore.ai](https://clore.ai/rent-a100-80gb.html) — instancias de 4× A100 80GB desde \~$10/día
* **Mercado completo:** [clore.ai/marketplace](https://clore.ai/marketplace) — H100, H200, A100, RTX 5090 desde $0.50/día

### Enlaces

* [Hy3 Preview en HuggingFace](https://huggingface.co/tencent/Hy3-preview)
* [Repositorio de Hy3 Preview en GitHub](https://github.com/Tencent-Hunyuan/Hy3-preview)
* [Organización Tencent Hunyuan](https://huggingface.co/tencent)
* [documentación de vLLM](https://docs.vllm.ai)
* [repositorio de SGLang](https://github.com/sgl-project/sglang)
* [AngelSlim — caja de herramientas de cuantización de Tencent](https://github.com/Tencent/AngelSlim)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/hy3-preview.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
