GLM-4.7-Flash
在 Clore.ai 部署 Zhipu AI 的 GLM-4.7-Flash(30B MoE)——高效语言模型,SWE-bench 性能 59.2%
GLM-4.7-Flash 是一个 300 亿参数的专家混合(Mixture-of-Experts)模型 由智谱AI开发,每个标记仅激活 30 亿参数。在代码和推理任务上表现出色,在 SWE-bench 上达到 59.2%,而进行 FP16 推理仅需约 10-12GB 显存。根据 MIT 许可证发布,是希望以单卡可承受成本获得前沿模型质量的开发者的理想选择。
概览
模型规模: 总计 30B / 每次激活 3B 参数(MoE)
许可证: MIT(完全商业可用)
上下文: 128K 令牌
性能: 59.2% SWE-bench,75.4% HumanEval
显存: 约 10-12GB FP16,约 6GB INT8
速度: 在 RTX 4090 上约 45-60 标记/秒
为什么选择 GLM-4.7-Flash?
高效性能: GLM-4.7-Flash 的表现超出其级别。尽管每次仅使用 3B 激活参数,它在代码基准上优于许多 70B+ 的密集模型。MoE 架构以 7B 模型推理成本提供接近 30B 的模型质量。
单卡友好: 与需要多卡配置的大型模型不同,GLM-4.7-Flash 可在单张 RTX 4090 或 A100 40GB 上轻松运行。非常适合开发、微调和具有成本效益的生产部署。
代码专项: GLM-4.7-Flash 在软件工程任务方面表现优异(SWE-bench 59.2%)——代码生成、调试、重构和技术文档。它理解 20+ 编程语言并具备深层上下文感知。
MIT 许可: 无使用限制。可商业部署、微调或修改,无需担心许可问题。完整权重和训练配方可自由获取。
GPU 建议
RTX 4090
24GB
~50 标记/秒
~$2.10
RTX 3090
24GB
~35 标记/秒
~$1.10
A100 40GB
40GB
~80 标记/秒
~$3.50
A100 80GB
80GB
~90 标记/秒
~$4.00
H100
80GB
~120 标记/秒
~$6.00
最佳性价比: RTX 4090 在性能与成本之间为 GLM-4.7-Flash 提供了最佳平衡。
*估算自 Clore.ai 市场价格
使用 vLLM 部署
安装 vLLM
单卡设置
查询服务器
使用 SGLang 部署
SGLang 往往为 MoE 模型提供更好的吞吐量:
使用 Ollama 部署
本地开发的简单设置:
然后通过 REST API 查询:
Docker 模板
构建并运行:
代码生成示例
GLM-4.7-Flash 擅长复杂代码生成:
Clore.ai 用户提示
内存优化: 使用
--dtype float16以减少显存使用。对于 16GB GPU,请添加--max-model-len 16384以限制上下文长度。批处理: 增加
--max-num-seqs以在服务多个请求时获得更高吞吐量。量化: 对于 RTX 3060/4060(12GB),使用 AWQ 或 GPTQ 量化版本可将显存降至约 6GB。
抢占: GLM-4.7-Flash 能够优雅地处理中断——适合可抢占的 Clore.ai 实例。
上下文长度: 默认 128K 上下文可能过大。设置
--max-model-len 32768适用于大多数应用。
故障排查
内存不足错误
减少 --max-model-len 或使用 --dtype float16
模型加载缓慢
预缓存,使用 huggingface-cli download THUDM/glm-4-flash
导入错误
更新 transformers: pip install transformers>=4.40.0
性能差
启用 Flash Attention: pip install flash-attn
连接被拒绝
检查防火墙: ufw allow 8000
替代模型
如果 GLM-4.7-Flash 不适合你的需求:
Qwen2.5-Coder-7B: 更好的纯代码性能,体积更小
CodeQwen1.5-7B: 中文+英文的代码专项模型
GLM-4-9B: 更大的同系模型,推理与推理能力更强
DeepSeek-V3: 671B 的 MoE,用于终极性能(多 GPU)
资源
最后更新于
这有帮助吗?