> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/hy3-preview.md).

# Hy3 Preview (Tencent Hunyuan 3, 295B MoE)

{% hint style="info" %}
**Statut (avril 2026) :** Hy3 Preview est la première publication publique de **l'infrastructure d'entraînement reconstruite de Tencent Hunyuan**, publiée le **13 avril 2026** et mise à jour pour la dernière fois le **23 avril 2026**. Les poids sont disponibles sur [huggingface.co/tencent/Hy3-preview](https://huggingface.co/tencent/Hy3-preview) sous la **Licence communautaire Tencent Hy**. La prise en charge dès le premier jour est arrivée dans vLLM et SGLang.
{% endhint %}

Hy3 Preview est un **modèle de langage Mixture-of-Experts de 295B paramètres** qui n'active que **\~21B paramètres par jeton** (192 experts, routage top-8). Il cible deux charges de travail sur lesquelles Tencent a visiblement rattrapé son retard : **le raisonnement à long horizon** (FrontierScience-Olympiad, IMOAnswerBench, examens de mathématiques de niveau doctorat) et **charges de travail de codage agentique** (SWE-bench Verified 74.4 %, Terminal-Bench 2.0 54.4 %, selon les affirmations du fournisseur). La fenêtre de contexte de 256K, plus une couche de décodage spéculatif MTP (Multi-Token Prediction), le rendent pratique pour les agents de codage à l'échelle de l'IDE et le RAG lourd en documents.

Pour les utilisateurs de Clore.ai, le chiffre principal est **21B actifs**. Vous n'avez pas besoin d'un rack complet 8×H200. Un déploiement en parallèle tensoriel sur **4×A100 80 Go** ou **2×H100 80 Go** (BF16 avec déchargement) suffit pour l'exécuter avec un débit utilisable — du codage agentique de niveau frontière pour environ 10 à 20 $/jour sur la place de marché, les poids restant sur votre propre machine.

### Spécifications clés

| Propriété            | Valeur                                               |
| -------------------- | ---------------------------------------------------- |
| Paramètres totaux    | 295B (MoE)                                           |
| Paramètres actifs    | 21B par passe avant                                  |
| Experts              | 192 au total, routage top-8                          |
| Couches              | 80 transformeur + 1 MTP                              |
| Attention            | 64 têtes, GQA avec 8 têtes KV, dimension de tête 128 |
| Taille cachée        | 4096                                                 |
| Taille intermédiaire | 13,312                                               |
| Vocabulaire          | 120,832                                              |
| Fenêtre de contexte  | 256 000 tokens                                       |
| Précision native     | BF16                                                 |
| Licence              | Licence communautaire Tencent Hy                     |
| Date de publication  | 13 avril 2026                                        |
| Organisation         | Tencent Hunyuan                                      |
| Outillage principal  | vLLM, SGLang, AngelSlim, LLaMA-Factory               |

### Pourquoi Hy3 Preview ?

* **Premier sur la pile RL reconstruite de Tencent** — Tencent a réécrit son infrastructure d'entraînement pour cette version ; attendez-vous à une itération rapide tout au long de 2026
* **MoE actif de 21B** — vous payez le coût d'inférence d'un modèle dense d'environ 21B, pas de 295B
* **Contexte 256K** — suffisant pour des dépôts entiers, de longues traces d'agents ou du RAG multi-documents en une seule fois
* **Couche spéculative MTP** — la prédiction multi-jetons intégrée apporte des accélérations de décodage d'environ 1,5 à 2× sur les GPU de classe Hopper
* **Deux modes de raisonnement** — `reasoning_effort: "high"` pour le raisonnement pas à pas, `"no_think"` pour des réponses directes rapides
* **Orientation codage agentique** — explicitement optimisé pour l'utilisation d'outils en plusieurs tours à la manière de SWE-bench et pour les agents terminaux
* **Licence conviviale pour l'open source** — la licence communautaire Tencent Hy est de style Apache pour la plupart des usages ; vérifiez le fichier LICENSE pour votre cas

***

## Exigences

{% hint style="warning" %}
**Toujours un modèle de classe 295B.** "21B actifs" décrit le calcul d'inférence, pas l'empreinte mémoire. Les poids BF16 complets font environ 590 Go et doivent résider dans la VRAM (ou être déchargés). Prévoyez 8×H100/H200 si vous voulez un débit sans contrainte ; 4×A100 80 Go fonctionnent avec déchargement et des contextes plus courts.
{% endhint %}

| Composant | Minimum (Q4 GGUF, déchargement)           | Recommandé (BF16, TP)  | BF16 complet (production)  |
| --------- | ----------------------------------------- | ---------------------- | -------------------------- |
| VRAM GPU  | \~80 Go + déchargement vers 256 Go de RAM | 4× A100 80 Go (320 Go) | 8× H100 80 Go ou 8× H20-3e |
| RAM       | 256 Go                                    | 384 Go                 | 512 Go                     |
| Disque    | 700 Go NVMe                               | 1 To NVMe              | 1,5 To NVMe                |
| CUDA      | 12.4+                                     | 12.4+                  | 12.6+                      |
| Pilote    | 550+                                      | 550+                   | 560+                       |

**Choix Clore.ai :** Pour la plupart des équipes, **4× A100 80 Go** avec parallélisme tensoriel BF16 et `--max-model-len 65536` est le meilleur compromis (\~10 à 16 $/jour). Si vous avez besoin du contexte complet de 256K avec plusieurs utilisateurs simultanés, passez à 8× H100.

***

## Option A — Ollama / GGUF (quantifié, builds communautaires)

{% hint style="warning" %}
**Attention :** Hy3 Preview est tout nouveau (13 avril 2026) et utilise une architecture MoE personnalisée. La prise en charge communautaire llama.cpp / GGUF arrive généralement **2 à 4 semaines** après la publication. Si vous en avez besoin aujourd'hui, utilisez vLLM (Option B). Consultez [huggingface.co/models?search=hy3-preview+gguf](https://huggingface.co/models?search=hy3-preview+gguf) pour les quantifications communautaires avant de télécharger.
{% endhint %}

```bash
# Une fois qu'une version Q4_K_M est publiée
docker exec ollama ollama pull hy3-preview:q4_K_M
docker exec ollama ollama run hy3-preview:q4_K_M

# Ou avec llama.cpp directement sur un GGUF communautaire
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/hy3-preview-q4_k_m.gguf \
  --n-gpu-layers 80 --ctx-size 32768 \
  --port 8080 --host 0.0.0.0
```

Avant l'arrivée du GGUF, AngelSlim (l'outil de quantification de Tencent) peut produire directement des poids W4A16 / W8A8 à partir du checkpoint BF16.

***

## Option B — vLLM (API de production, recommandé)

vLLM est la cible de service de premier choix de Tencent pour Hy3 Preview. La couche spéculative MTP est intégrée via `--speculative-config.method mtp`.

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model tencent/Hy3-preview
      --tensor-parallel-size 8
      --max-model-len 65536
      --gpu-memory-utilization 0.90
      --speculative-config.method mtp
      --speculative-config.num_speculative_tokens 1
      --tool-call-parser hy_v3
      --reasoning-parser hy_v3
      --enable-auto-tool-choice
      --served-model-name hy3-preview
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Tester l'API avec un fort effort de raisonnement
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "hy3-preview",
    "messages": [
      {"role": "system", "content": "Vous êtes un ingénieur logiciel expert."},
      {"role": "user", "content": "Refactorisez cette fonction Python pour utiliser async/await et ajoutez une gestion correcte des erreurs."}
    ],
    "max_tokens": 4096,
    "temperature": 0.9,
    "top_p": 1.0,
    "reasoning_effort": "high"
  }'
```

{% hint style="info" %}
**Modes de raisonnement.** Définissez `reasoning_effort: "high"` pour activer les traces de raisonnement pas à pas (plus lent, bien meilleur pour les tâches de math/codage/agent) ou `"no_think"` pour des réponses directes rapides. L'échantillonnage recommandé par le fournisseur est `temperature=0.9, top_p=1.0` — un échantillonnage à température nulle peut casser les traces de raisonnement.
{% endhint %}

{% hint style="info" %}
**Vous manquez de GPU ?** Descendez à `--tensor-parallel-size 4` sur 4× A100 80 Go. Conservez `--max-model-len 32768` et ajoutez `--enable-chunked-prefill` pour garder une latence de pré-remplissage raisonnable.
{% endhint %}

***

## Option C — SGLang

SGLang fournit la prise en charge dès le premier jour et associe la couche MTP à un décodage spéculatif EAGLE pour un débit supplémentaire sur Hopper.

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \
  --model tencent/Hy3-preview \
  --tp 8 \
  --tool-call-parser hunyuan \
  --reasoning-parser hunyuan \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 1 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 2 \
  --mem-fraction-static 0.88 \
  --context-length 65536 \
  --served-model-name hy3-preview
```

Attendez-vous à un gain de débit de 1,5 à 2× sur les longues boucles d'agents par rapport au décodage standard.

***

## Recommandations GPU Clore.ai

| Configuration  | VRAM     | Performances attendues                                     | Coût Clore.ai    | Louer                                                    |
| -------------- | -------- | ---------------------------------------------------------- | ---------------- | -------------------------------------------------------- |
| 4× A100 80 Go  | 320 Go   | BF16 fragmenté, ctx 64K, \~15–25 tok/s                     | \~10 à 16 $/jour | [Louer A100 80 Go](https://clore.ai/rent-a100-80gb.html) |
| 2× H100 80 Go  | 160 Go   | BF16 avec déchargement, contexte plus petit, \~12–20 tok/s | \~12 à 18 $/jour | [Louer H100](https://clore.ai/rent-h100.html)            |
| 8× H100 80 Go  | 640 Go   | BF16 complet, contexte 256K, 60+ tok/s avec MTP            | \~48–64 $/jour   | [Louer H100](https://clore.ai/rent-h100.html)            |
| 8× H200 141 Go | 1 128 Go | BF16 complet + concurrence maximale                        | \~64 à 96 $/jour | [Louer H200](https://clore.ai/rent-h200.html)            |
| 1× RTX 5090    | 32 Go    | Q4 GGUF, déchargement vers RAM, utilisateur unique         | \~3,94 $/h       | [Place de marché](https://clore.ai/marketplace)          |

{% hint style="success" %}
**Meilleur rapport qualité-prix :** 4× A100 80 Go avec parallélisme tensoriel BF16 et une fenêtre de contexte de 64K. Vous obtenez un codeur agentique ouvert de classe 295B pour à peu près le prix d'un abonnement Claude Pro, et les poids ne quittent jamais votre machine louée.
{% endhint %}

***

## Cas d’usage

* **Agents SWE autonomes** — 74,4 % sur SWE-bench Verified (selon les affirmations du fournisseur) et réglage explicite pour les longues boucles d'appels d'outils ; à associer avec OpenHands, SWE-agent ou Aider
* **Agents pilotés par le terminal** — 54,4 % sur Terminal-Bench 2.0 le place dans le haut du panier pour les workflows shell/CLI
* **Raisonnement à long horizon** — mathématiques de niveau olympique (IMOAnswerBench, FrontierScience-Olympiad) et STEM de niveau doctorat
* **RAG à l'échelle du dépôt** — le contexte 256K permet d'inclure un dépôt complet de taille moyenne ainsi que les tests dans un seul prompt
* **Agents de recherche et de navigation** — l'optimisation BrowseComp / WideSearch en fait un excellent planificateur pour la recherche web en plusieurs étapes
* **Agent d'agents** — utilisez Hy3 Preview comme planificateur et des modèles ouverts plus légers ([Qwen3.5](/guides/guides_v2-fr/modeles-de-langage/qwen35.md), [GLM-4.7 Flash](/guides/guides_v2-fr/modeles-de-langage/glm-47-flash.md)) comme travailleurs

***

## Benchmarks

{% hint style="warning" %}
**Données revendiquées par le fournisseur — à vérifier indépendamment.** Tous les chiffres ci-dessous proviennent de la fiche modèle de Tencent du 13 avril 2026. Les reproductions indépendantes (en particulier sur SWE-bench Verified) arrivent encore progressivement. Considérez-les comme des bornes supérieures jusqu'à confirmation par LMSYS / OpenCompass.
{% endhint %}

| Benchmark          | Aperçu Hy3 | GLM-5.1 | DeepSeek R1 | GPT-5.4 |
| ------------------ | ---------- | ------- | ----------- | ------- |
| SWE-bench Verified | **74.4%**  | \~79%   | \~71%       | \~78%   |
| Terminal-Bench 2.0 | **54.4%**  | —       | —           | —       |
| GPQA Diamond       | **87.2%**  | —       | \~84%       | \~88%   |
| SuperGPQA          | 51.6%      | —       | —           | —       |
| HLE                | \~30       | —       | —           | —       |

Tencent rapporte également de bons résultats sur les benchmarks propriétaires d'apprentissage contextuel CL-bench / CL-bench-Life et l'examen de mathématiques Qiuzhen de l'Université Tsinghua, niveau doctorat (printemps 2026).

***

## Dépannage

| Problème                                | Solution                                                                                                                                                                          |
| --------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` au chargement        | Le BF16 nécessite environ 590 Go de VRAM au total. Réduisez à 4×A100 avec `--max-model-len 32768` ou utilisez des quantifications AngelSlim W4A16.                                |
| Téléchargement HuggingFace lent         | Utilisez `huggingface-cli download tencent/Hy3-preview --local-dir ./weights --resume-download`. Prévoir 590 Go+.                                                                 |
| Appels d’outils ignorés silencieusement | Assurez-vous que `--tool-call-parser hy_v3` (vLLM) ou `--tool-call-parser hunyuan` (SGLang) est défini, et `--enable-auto-tool-choice` est activé.                                |
| Trace de raisonnement vide / incorrecte | Utilisez `temperature=0.9, top_p=1.0`. Le décodage glouton à température nulle casse la chaîne de pensée. Confirmez `reasoning_effort: "high"`.                                   |
| Erreurs de décodage spéculatif MTP      | Nécessite une version récente de vLLM (build postérieur à avril 2026). Exécutez `pip install -U vllm --pre` ou figez sur une version qui indique `mtp` dans les notes de version. |
| OOM avec contexte 256K                  | Commencez avec `--max-model-len 32768`, activez `--enable-chunked-prefill`, augmentez progressivement. Un contexte complet de 256K nécessite en pratique 8× H200.                 |
| Architecture personnalisée rejetée      | Passez toujours `--trust-remote-code`. Hy3 fournit un code de modélisation personnalisé avec le checkpoint.                                                                       |
| Ollama / GGUF indisponible              | Les quantifications communautaires arrivent généralement 2 à 4 semaines après la publication. Utilisez vLLM ou AngelSlim en attendant.                                            |

***

## Étapes suivantes

* **Pair open-weight le plus proche :** [GLM-5.1](/guides/guides_v2-fr/modeles-de-langage/glm-5-1.md) — MoE 744B / 40B actifs, licence MIT, meilleurs scores SWE-bench Pro
* **Alternative multimodale :** [Qwen3.5-Omni](/guides/guides_v2-fr/modeles-de-langage/qwen35-omni.md) — texte + audio + image + vidéo, fonctionne sur une seule RTX 4090
* **Alternative axée uniquement sur le raisonnement :** [DeepSeek R1](/guides/guides_v2-fr/modeles-de-langage/deepseek-r1.md) — spécialiste pur du raisonnement long format
* **Louez le matériel :** [Louer A100 80 Go sur Clore.ai](https://clore.ai/rent-a100-80gb.html) — instances 4× A100 80 Go à partir d'environ 10 $/jour
* **Place de marché complète :** [clore.ai/marketplace](https://clore.ai/marketplace) — H100, H200, A100, RTX 5090 à partir de 0,50 $/jour

### Liens

* [Hy3 Preview sur HuggingFace](https://huggingface.co/tencent/Hy3-preview)
* [Dépôt GitHub de Hy3 Preview](https://github.com/Tencent-Hunyuan/Hy3-preview)
* [Organisation Tencent Hunyuan](https://huggingface.co/tencent)
* [Documentation vLLM](https://docs.vllm.ai)
* [Dépôt SGLang](https://github.com/sgl-project/sglang)
* [AngelSlim — la boîte à outils de quantification de Tencent](https://github.com/Tencent/AngelSlim)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/hy3-preview.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.