GLM-5
Déployez GLM-5 (744B MoE) par Zhipu AI sur Clore.ai — accès API et auto-hébergement avec vLLM
GLM-5, publié en février 2026 par Zhipu AI (Z.AI), est un modèle de langage Mixture-of-Experts de 744 milliards de paramètres qui n'active que 40B paramètres par token. Il atteint des performances open-source de premier plan en raisonnement, codage et tâches agentiques — obtenant 77,8 % sur SWE-bench Verified et rivalisant avec des modèles de pointe comme Claude Opus 4.5 et GPT-5.2. Le modèle est disponible sous Licence MIT sur HuggingFace.
Principales caractéristiques
744B au total / 40B actifs — MoE à 256 experts avec routage très efficace
Performances de pointe en codage — 77,8 % SWE-bench Verified, 73,3 % SWE-bench Multilingue
Raisonnement approfondi — 92,7 % sur AIME 2026, 96,9 % sur HMMT Nov 2025, mode de réflexion intégré
Capacités agentiques — appel natif d'outils, exécution de fonctions et planification de tâches à long terme
Fenêtre de contexte >200K — gère d'énormes bases de code et de longs documents
Licence MIT — poids entièrement ouverts, usage commercial autorisé
Exigences
L'auto-hébergement de GLM-5 est une entreprise sérieuse — le checkpoint FP8 nécessite ~860Go de VRAM.
GPU
8× H100 80GB
8× H200 141 Go
VRAM
640Go
1 128 Go
RAM
256GB
512GB
Disque
1,5To NVMe
2To NVMe
CUDA
12.0+
12.4+
Recommandation Clore.ai: Pour la plupart des utilisateurs, accédez à GLM-5 via l'API (Z.AI, OpenRouter). L'auto-hébergement n'a de sens que si vous pouvez louer 8× H100/H200 (~24–48 $/jour sur Clore.ai).
Accès API (Recommandé pour la plupart des utilisateurs)
La façon la plus pratique d'utiliser GLM-5 depuis une machine Clore.ai ou n'importe où :
Via la plateforme Z.AI
Via OpenRouter
Configuration vLLM (Auto-hébergement)
Pour ceux qui ont accès à des machines multi-GPU haut de gamme sur Clore.ai :
Servir FP8 sur 8× GPU H200
Interroger le serveur
Alternative SGLang
SGLang prend également en charge GLM-5 et peut offrir de meilleures performances sur certains matériels :
Démarrage rapide Docker
Exemple d'appel d'outils
GLM-5 dispose d'un support natif d'appel d'outils — idéal pour construire des applications agentiques :
Conseils pour les utilisateurs de Clore.ai
API d'abord, auto-hébergement ensuite: GLM-5 nécessite 8× H200 (~24–48 $/jour sur Clore.ai). Pour un usage occasionnel, l'API Z.AI ou OpenRouter est bien plus rentable. Auto-hébergez uniquement si vous avez besoin d'un débit soutenu ou de confidentialité des données.
Envisagez GLM-4.7 à la place: Si 8× H200 est trop, le prédécesseur GLM-4.7 (355B, 32B actifs) fonctionne sur 4× H200 ou 4× H100 (~12–24 $/jour) et offre toujours d'excellentes performances.
Utilisez les poids FP8: Utilisez toujours
zai-org/GLM-5-FP8— même qualité que BF16 mais presque moitié moindre empreinte mémoire. La version BF16 nécessite 16× GPU.Surveillez l'utilisation de la VRAM:
watch nvidia-smi— les requêtes de long contexte peuvent faire monter la mémoire. Réglez--gpu-memory-utilization 0.85pour laisser de la marge.Compromis du mode réflexion: Le mode réflexion produit de meilleurs résultats pour les tâches complexes mais utilise plus de tokens et de temps. Désactivez-le pour les requêtes simples avec
enable_thinking: false.
Dépannage
OutOfMemoryError au démarrage
Assurez-vous d'avoir 8× H200 (141 Go chacun). FP8 nécessite ~860Go de VRAM au total.
Téléchargements lents (~800 Go)
Utilisez huggingface-cli download zai-org/GLM-5-FP8 avec --local-dir pour reprendre.
Incompatibilité de version vLLM
GLM-5 nécessite vLLM nightly. Installez via pip install -U vllm --pre.
Appels d'outils non fonctionnels
Ajoutez --tool-call-parser glm47 --enable-auto-tool-choice pour la commande serve.
Erreurs DeepGEMM
Installez DeepGEMM pour FP8 : utilisez le install_deepgemm.sh script du dépôt vLLM.
Sortie vide en mode réflexion
Définir temperature=1.0 — le mode réflexion nécessite une température non nulle.
Lectures complémentaires
Mis à jour
Ce contenu vous a-t-il été utile ?