GLM-5
在 Clore.ai 部署知谱 AI 的 GLM-5(744B MoE)——提供 API 访问并可使用 vLLM 自托管
GLM-5,由智谱AI(Z.AI)于2026年2月发布,是一款 7440亿参数的专家混合(Mixture-of-Experts)模型 语言模型,每个标记只激活40B参数。它在推理、编码和代理任务上达到了开源领域的最佳表现——在SWE-bench Verified上得分77.8%,可与Claude Opus 4.5和GPT-5.2等前沿模型比肩。该模型可在 MIT 许可证 提供。
主要特性
744B 总量 / 40B 激活 — 256 专家 MoE,具有高效的路由
前沿的编码性能 — SWE-bench Verified 77.8%,SWE-bench 多语言 73.3%
深度推理 — AIME 2026 得分 92.7%,HMMT 2025年11月 得分 96.9%,内置思考模式
代理能力 — 原生工具调用、函数执行和长远任务规划
20万+ 上下文窗口 — 处理大规模代码库和长文档
MIT 许可证 — 完全开放的权重,允许商业使用
要求
自托管 GLM-5 是一项严肃的工程——FP8 检查点需要 约860GB 显存.
GPU
8× H100 80GB
8× H200 141GB
显存
640GB
1,128GB
内存
256GB
512GB
磁盘
1.5TB NVMe
2TB NVMe
CUDA
12.0+
12.4+
Clore.ai 建议: 对于大多数用户, 通过 API 访问 GLM-5 (Z.AI、OpenRouter)。只有在你能租用 8× H100/H200(在 Clore.ai 上约 $24–48/天)的情况下,自托管才有意义。
API 访问(对多数用户推荐)
从 Clore.ai 机器或任何地方使用 GLM-5 最实用的方式:
通过 Z.AI 平台
通过 OpenRouter
vLLM 设置(自托管)
对于可以访问 Clore.ai 上高端多 GPU 机器的用户:
在 8× H200 GPU 上提供 FP8 服务
查询服务器
SGLang 替代方案
SGLang 也支持 GLM-5,在某些硬件上可能提供更好的性能:
Docker 快速开始
工具调用示例
GLM-5 具有原生工具调用支持——非常适合构建代理类应用:
给 Clore.ai 用户的提示
先 API,再自托管: GLM-5 需要 8× H200(每台约 141GB,Clore.ai 上约 $24–48/天)。对于偶尔使用,Z.AI API 或 OpenRouter 更加经济。仅在需要持续吞吐或数据隐私时才考虑自托管。
考虑改用 GLM-4.7: 如果 8× H200 太过昂贵或繁重,前代的 GLM-4.7(355B,总激活 32B)可在 4× H200 或 4× H100(约 $12–24/天)上运行,且仍能提供出色的性能。
使用 FP8 权重: 始终使用
zai-org/GLM-5-FP8— 与 BF16 相同的质量但几乎减半的内存占用。BF16 版本需要 16× GPU。监控显存使用:
watch nvidia-smi— 长上下文查询可能会使内存峰值增加。设置--gpu-memory-utilization 0.85以保留余量。思考模式的权衡: 思考模式能在复杂任务上产生更好的结果,但会消耗更多的令牌和时间。对于简单查询,可在启动时通过禁用来关闭它,方法是
enable_thinking: false.
# 使用固定种子以获得一致结果
OutOfMemoryError 在启动时
确保你有 8× H200(每块 141GB)。FP8 需要约 860GB 总显存。
缓慢的下载(约 800GB)
使用 huggingface-cli download zai-org/GLM-5-FP8 与 --local-dir 以恢复下载。
vLLM 版本不匹配
GLM-5 需要 vLLM nightly。通过以下方式安装: pip install -U vllm --pre.
工具调用无效
添加 --tool-call-parser glm47 --enable-auto-tool-choice 来提供服务命令。
DeepGEMM 错误
为 FP8 安装 DeepGEMM:使用 install_deepgemm.sh 脚本(来自 vLLM 仓库)。
思考模式输出为空
设置 temperature=1.0 — 思考模式需要非零温度。
延伸阅读
最后更新于
这有帮助吗?