# GLM-5.1 (744B MoE, n°1 SWE-Bench Pro)

{% hint style="info" %}
**Statut (avril 2026) :** GLM-5.1 a été publié le **7 avril 2026** par Z.ai (anciennement Zhipu AI) comme une mise à niveau incrémentale mais sérieuse de [GLM-5](/guides/guides_v2-fr/modeles-de-langage/glm5.md). C’est le premier modèle open-weight à dominer **SWE-Bench Pro (58,4 %)**, dépassant GPT-5.4 (57,7) et Claude Opus 4.6 (57,3) selon les chiffres publiés par le fournisseur. Les poids sont disponibles sur [huggingface.co/zai-org/GLM-5.1](https://huggingface.co/zai-org/GLM-5.1) sous **la licence MIT**.
{% endhint %}

GLM-5.1 est un **modèle de langage Mixture-of-Experts de 744 milliards de paramètres** qui n’active que **\~40 milliards de paramètres par jeton**. Par rapport à son prédécesseur [GLM-5](/guides/guides_v2-fr/modeles-de-langage/glm5.md), la version 5.1 conserve la même structure MoE mais propose un routage des experts affiné, une **fenêtre de contexte de 200K jetons**, une **sortie maximale de 131K jetons**, et un entraînement axé sur **le codage agentique à long horizon** — le modèle est explicitement optimisé pour soutenir des milliers d’appels d’outils et des centaines de cycles de refactorisation sans dériver.

Pour les utilisateurs de Clore.ai, l’élément intéressant est le **40B actifs** : vous n’avez pas besoin d’un rack complet 8×H200 pour le servir. Une configuration de parallélisme tensoriel sur **2× H100 80 Go** (FP8) ou **4× A100 80 Go** (BF16 avec sharding) suffit pour un débit pratique — ce qui met le codage de pointe à portée pour environ 12 à 24 $/jour sur la place de marché.

### Spécifications clés

| Propriété           | Valeur                                              |
| ------------------- | --------------------------------------------------- |
| Paramètres totaux   | 744B (MoE)                                          |
| Paramètres actifs   | \~40B par passage avant                             |
| Fenêtre de contexte | 200 000 jetons                                      |
| Sortie maximale     | 131 072 jetons                                      |
| Licence             | MIT                                                 |
| Date de publication | 7 avril 2026                                        |
| Organisation        | Z.ai (zai-org sur HuggingFace)                      |
| Outils principaux   | vLLM, SGLang, llama.cpp (GGUF), xLLM, KTransformers |

### Pourquoi GLM-5.1 ?

* **#1 sur SWE-Bench Pro** — 58,4 % selon le fournisseur, devant GPT-5.4 et Claude Opus 4.6
* **Agents à long horizon** — maintient l’optimisation sur des centaines de cycles et des milliers d’appels d’outils
* **Contexte 200K** — suffisant pour une base de code complète de taille moyenne plus une suite de tests
* **MoE actif 40B** — vous payez le coût d’inférence d’un modèle dense de 40B, pas d’un modèle de 744B
* **la licence MIT** — poids entièrement ouverts, aucune restriction pour l’usage commercial ou le fine-tuning
* **Pile d’entraînement ouverte** — Z.ai a publié le modèle, entraîné selon les rapports sans GPU de centre de données Nvidia

***

## Exigences

{% hint style="warning" %}
**Reste un très grand modèle.** Bien que « 40B actifs » paraisse rassurant, les 744B poids complets doivent être chargés en VRAM (ou déchargés). Les poids FP8 pèsent environ 860 Go ; le BF16 environ 1,5 To. Préparez-vous en conséquence.
{% endhint %}

| Composant | Minimum (Q4 GGUF, déchargement)         | Recommandé (FP8)                  | BF16 complet   |
| --------- | --------------------------------------- | --------------------------------- | -------------- |
| VRAM GPU  | \~80 Go (Q4 + déchargement vers la RAM) | 2× H100 80 Go actifs, 8× au total | 8× H200 141 Go |
| RAM       | 256 Go                                  | 256 Go                            | 512 Go         |
| Disque    | 500 Go NVMe                             | 1 To NVMe                         | 2 To NVMe      |
| CUDA      | 12.4+                                   | 12.4+                             | 12.6+          |

**Choix Clore.ai :** Pour la plupart des équipes, 2× H100 80 Go exécutant le checkpoint FP8 avec un déchargement agressif constituent le meilleur compromis (\~12 à 16 $/jour). Si vous avez besoin du débit BF16 complet, passez à 8× H200 ou utilisez l’API Z.ai pour des appels occasionnels.

***

## Option A — Ollama / GGUF (quantifié, builds communautaires)

{% hint style="warning" %}
**À noter :** Les quantifications GGUF communautaires arrivent généralement 1 à 2 semaines après une version Z.ai. Si `ollama pull` échoue, consultez [huggingface.co/models?search=glm-5.1+gguf](https://huggingface.co/models?search=glm-5.1+gguf) et pointez directement llama.cpp vers le fichier.
{% endhint %}

```bash
# Une fois qu’un build Q4_K_M est disponible
docker exec ollama ollama pull glm-5.1:q4_K_M
docker exec ollama ollama run glm-5.1:q4_K_M

# Ou avec llama.cpp directement sur un fichier GGUF
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/glm-5.1-q4_k_m.gguf \
  --n-gpu-layers 80 --ctx-size 32768 \
  --port 8080 --host 0.0.0.0
```

***

## Option B — vLLM (API de production, recommandé)

vLLM est la cible de service de premier ordre de Z.ai. Le checkpoint FP8 (`zai-org/GLM-5.1-FP8`) est celui qu’il vous faut — même qualité que BF16, pour environ la moitié de la mémoire.

```yaml
version: "3.8"
services:
  vllm :
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model zai-org/GLM-5.1-FP8
      --tensor-parallel-size 8
      --max-model-len 65536
      --gpu-memory-utilization 0.88
      --tool-call-parser glm47
      --reasoning-parser glm45
      --enable-auto-tool-choice
      --served-model-name glm-5.1
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Tester l’API
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.1",
    "messages": [
      {"role": "system", "content": "Vous êtes un ingénieur logiciel senior."},
      {"role": "user", "content": "Refactorisez ce gestionnaire Go pour utiliser correctement context.Context et ajoutez des tentatives."}
    ],
    "max_tokens": 4096,
    "temperature": 1.0
  }'
```

{% hint style="info" %}
Utilisez `--tensor-parallel-size 2` sur 2× H100 si vous êtes à court de GPU, mais prévoyez un préremplissage plus lent sur des contextes de 200K. `--enable-chunked-prefill` aide beaucoup.
{% endhint %}

***

## Option C — SGLang (alternative, souvent plus rapide sur Hopper)

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \
  --model-path zai-org/GLM-5.1-FP8 \
  --tp-size 8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.88 \
  --context-length 65536 \
  --served-model-name glm-5.1
```

Le décodage spéculatif EAGLE de SGLang offre généralement un gain de débit de 1,5 à 2× sur les longues complétions de code.

***

## Recommandations GPU pour Clore.ai

| Configuration  | VRAM     | Performances attendues               | Coût Clore.ai  |
| -------------- | -------- | ------------------------------------ | -------------- |
| 2× H100 80 Go  | 160 Go   | FP8 avec déchargement, \~15–25 tok/s | \~12–16 $/jour |
| 4× A100 80 Go  | 320 Go   | BF16 shardé, \~20–30 tok/s           | \~15–22 $/jour |
| 8× H100 80 Go  | 640 Go   | FP8 complet, \~60+ tok/s             | \~40–55 $/jour |
| 8× H200 141 Go | 1 128 Go | BF16 complet, débit maximal          | \~70 $+/jour   |

{% hint style="success" %}
**Meilleur rapport qualité-prix :** 2× H100 80 Go avec le checkpoint FP8. Vous obtenez des performances de codage de pointe pour à peu près le prix d’un abonnement Claude Opus — et les poids restent sur votre machine.
{% endhint %}

***

## Cas d’utilisation

* **Agents SWE autonomes** — GLM-5.1 est explicitement entraîné pour de longues boucles d’appels d’outils ; associez-le à quelque chose comme SWE-agent ou OpenHands
* **Compréhension de base de code** — mettez plus de 100K jetons de Go/Rust/Python dans le contexte et demandez des revues d’architecture
* **RAG à long contexte** — 200K ctx gèrent en une seule fois l’ensemble de la documentation produit + les tickets de support
* **Pipelines de refactorisation** — correction soutenue sur des centaines de modifications de fichiers
* **Orchestration agent-d’agents** — utilisez GLM-5.1 comme planificateur et des modèles plus petits (Qwen3.5-35B, GLM-4.7) comme exécutants

***

## Benchmarks

{% hint style="warning" %}
**Chiffres annoncés par le fournisseur — à vérifier indépendamment.** Les chiffres ci-dessous proviennent de l’annonce de Z.ai du 7 avril 2026. Les reproductions indépendantes sur SWE-Bench Pro arrivent encore progressivement.
{% endhint %}

| Benchmark          | GLM-5.1   | GPT-5.4 | Claude Opus 4.6 | GLM-5 |
| ------------------ | --------- | ------- | --------------- | ----- |
| SWE-Bench Pro      | **58.4%** | 57.7%   | 57.3%           | \~52% |
| SWE-Bench Verified | \~79%     | \~78%   | \~80%           | 77.8% |
| HumanEval          | \~94%     | \~95%   | \~94%           | \~93% |
| LiveCodeBench      | \~72%     | \~73%   | \~70%           | \~68% |

***

## Dépannage

| Problème                                | Solution                                                                                                                                  |
| --------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` au chargement        | Le checkpoint FP8 nécessite environ 860 Go de VRAM au total. Utilisez 8× H100/H200 ou passez à GGUF Q4 avec déchargement vers la RAM.     |
| Téléchargement HuggingFace lent         | Utilisez `huggingface-cli download zai-org/GLM-5.1-FP8 --local-dir ./weights --resume-download`. Comptez plus de 800 Go.                  |
| Appels d’outils silencieusement ignorés | Assurez-vous que `--tool-call-parser glm47` et `--enable-auto-tool-choice` sont tous deux définis dans vLLM.                              |
| Mode réflexion vide                     | Nécessite `temperature=1.0` — l’échantillonnage à température zéro casse la trace de raisonnement.                                        |
| vLLM rejette la configuration           | GLM-5.1 nécessite vLLM ≥ 0.7.x (version d’avril 2026). Utilisez `pip install -U vllm --pre` si vous êtes sur des versions plus anciennes. |
| OOM avec un contexte 200K               | Commencez avec `--max-model-len 65536` et ajoutez `--enable-chunked-prefill`; augmentez une fois stable.                                  |

***

## Étapes suivantes

* **Prédécesseur :** [GLM-5](/guides/guides_v2-fr/modeles-de-langage/glm5.md) — même forme MoE, légèrement moins axé sur le codage
* **Alternative moins chère :** [Qwen3.5](/guides/guides_v2-fr/modeles-de-langage/qwen35.md) — le dense 35B tient sur une seule RTX 4090
* **Alternative à très grand contexte :** [DeepSeek V4](/guides/guides_v2-fr/modeles-de-langage/deepseek-v4.md) — 1M ctx, multimodal, \~1T paramètres
* **Marketplace Clore.ai :** [clore.ai/marketplace](https://clore.ai/marketplace) — louez H100/H200/A100 à partir de 0,50 $/jour

### Liens

* [GLM-5.1 sur HuggingFace](https://huggingface.co/zai-org/GLM-5.1)
* [Blog Z.ai — annonce de GLM-5.1](https://z.ai/blog/glm-5.1)
* [Plateforme Z.ai (API hébergée)](https://chat.z.ai)
* [Documentation vLLM](https://docs.vllm.ai)
* [Dépôt SGLang](https://github.com/sgl-project/sglang)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/glm-5-1.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
