GLM-5

Déployez GLM-5 (744B MoE) par Zhipu AI sur Clore.ai — accès API et auto-hébergement avec vLLM

GLM-5, publié en février 2026 par Zhipu AI (Z.AI), est un modèle de langage Mixture-of-Experts de 744 milliards de paramètres qui n'active que 40B paramètres par token. Il atteint des performances open-source de premier plan en raisonnement, codage et tâches agentiques — obtenant 77,8 % sur SWE-bench Verified et rivalisant avec des modèles de pointe comme Claude Opus 4.5 et GPT-5.2. Le modèle est disponible sous Licence MIT sur HuggingFace.

Principales caractéristiques

  • 744B au total / 40B actifs — MoE à 256 experts avec routage très efficace

  • Performances de pointe en codage — 77,8 % SWE-bench Verified, 73,3 % SWE-bench Multilingue

  • Raisonnement approfondi — 92,7 % sur AIME 2026, 96,9 % sur HMMT Nov 2025, mode de réflexion intégré

  • Capacités agentiques — appel natif d'outils, exécution de fonctions et planification de tâches à long terme

  • Fenêtre de contexte >200K — gère d'énormes bases de code et de longs documents

  • Licence MIT — poids entièrement ouverts, usage commercial autorisé

Exigences

L'auto-hébergement de GLM-5 est une entreprise sérieuse — le checkpoint FP8 nécessite ~860Go de VRAM.

Composant
Minimum (FP8)
Recommandé

GPU

8× H100 80GB

8× H200 141 Go

VRAM

640Go

1 128 Go

RAM

256GB

512GB

Disque

1,5To NVMe

2To NVMe

CUDA

12.0+

12.4+

Recommandation Clore.ai: Pour la plupart des utilisateurs, accédez à GLM-5 via l'API (Z.AI, OpenRouter). L'auto-hébergement n'a de sens que si vous pouvez louer 8× H100/H200 (~24–48 $/jour sur Clore.ai).

Accès API (Recommandé pour la plupart des utilisateurs)

La façon la plus pratique d'utiliser GLM-5 depuis une machine Clore.ai ou n'importe où :

Via la plateforme Z.AI

Via OpenRouter

Configuration vLLM (Auto-hébergement)

Pour ceux qui ont accès à des machines multi-GPU haut de gamme sur Clore.ai :

Servir FP8 sur 8× GPU H200

Interroger le serveur

Alternative SGLang

SGLang prend également en charge GLM-5 et peut offrir de meilleures performances sur certains matériels :

Démarrage rapide Docker

Exemple d'appel d'outils

GLM-5 dispose d'un support natif d'appel d'outils — idéal pour construire des applications agentiques :

Conseils pour les utilisateurs de Clore.ai

  • API d'abord, auto-hébergement ensuite: GLM-5 nécessite 8× H200 (~24–48 $/jour sur Clore.ai). Pour un usage occasionnel, l'API Z.AI ou OpenRouter est bien plus rentable. Auto-hébergez uniquement si vous avez besoin d'un débit soutenu ou de confidentialité des données.

  • Envisagez GLM-4.7 à la place: Si 8× H200 est trop, le prédécesseur GLM-4.7 (355B, 32B actifs) fonctionne sur 4× H200 ou 4× H100 (~12–24 $/jour) et offre toujours d'excellentes performances.

  • Utilisez les poids FP8: Utilisez toujours zai-org/GLM-5-FP8 — même qualité que BF16 mais presque moitié moindre empreinte mémoire. La version BF16 nécessite 16× GPU.

  • Surveillez l'utilisation de la VRAM: watch nvidia-smi — les requêtes de long contexte peuvent faire monter la mémoire. Réglez --gpu-memory-utilization 0.85 pour laisser de la marge.

  • Compromis du mode réflexion: Le mode réflexion produit de meilleurs résultats pour les tâches complexes mais utilise plus de tokens et de temps. Désactivez-le pour les requêtes simples avec enable_thinking: false.

Dépannage

Problème
Solution

OutOfMemoryError au démarrage

Assurez-vous d'avoir 8× H200 (141 Go chacun). FP8 nécessite ~860Go de VRAM au total.

Téléchargements lents (~800 Go)

Utilisez huggingface-cli download zai-org/GLM-5-FP8 avec --local-dir pour reprendre.

Incompatibilité de version vLLM

GLM-5 nécessite vLLM nightly. Installez via pip install -U vllm --pre.

Appels d'outils non fonctionnels

Ajoutez --tool-call-parser glm47 --enable-auto-tool-choice pour la commande serve.

Erreurs DeepGEMM

Installez DeepGEMM pour FP8 : utilisez le install_deepgemm.sh script du dépôt vLLM.

Sortie vide en mode réflexion

Définir temperature=1.0 — le mode réflexion nécessite une température non nulle.

Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?