Kimi K2.5
在 Clore.ai GPU 上部署 Moonshot AI 的 Kimi K2.5(1T MoE 多模态)
Kimi K2.5,由 Moonshot AI 于 2026 年 1 月 27 日发布,是一个 1 万亿参数的专家混合(Mixture-of-Experts)多模态模型 每个 token 有 320 亿活跃参数。通过在 Kimi-K2-Base 基础上对约 15 万亿混合视觉与文本 token 进行持续预训练构建,原生理解文本、图像和视频。K2.5 引入了 Agent Swarm 技术——可同时协调多达 100 个专用 AI 代理——并在编码(76.8% SWE-bench Verified)、视觉和代理任务上实现前沿级性能。在 HuggingFace 上以 开源权重许可 提供。
主要特性
总计 1T / 活跃 32B — 具有 MLA 注意力和 SwiGLU 的 384 专家 MoE 架构
原生多模态 — 在视觉-语言 token 上预训练;理解图像、视频和文本
Agent Swarm — 通过动态生成的代理将复杂任务分解为并行子任务
256K 上下文窗口 — 可处理整个代码库、长文档和视频转录
混合推理 — 支持即时模式(快速)和思考模式(深度推理)
强大的编码能力 — 76.8% SWE-bench Verified,73.0% SWE-bench 多语言
要求
Kimi K2.5 是一个超大模型——FP8 检查点约为 630GB。自托管需要强大的硬件。
GPU
1× RTX 4090 + 256GB 内存
8× H200 141GB
显存
24GB + CPU 交换卸载
1,128GB
内存
256GB+
256GB
磁盘
400GB SSD
700GB NVMe
CUDA
12.0+
12.0+
Clore.ai 建议:对于全精度推理,租用 8× H200(约 $24–48/天)。对于量化的本地推理,单个 H100 80GB 或甚至 RTX 4090 + 大量 CPU 卸载可以以降低的速度工作。
使用 llama.cpp 的快速入门(量化)
在本地运行 K2.5 的最便捷方法——使用 Unsloth 的 GGUF 量化:
注意:在 K2.5 的 GGUF/llama.cpp 中尚不支持视觉功能。要使用多模态功能,请使用 vLLM。
vLLM 设置(生产环境——完整模型)
要在生产环境中提供完整多模态支持的服务:
在 8× H200 GPU 上提供服务
使用文本查询
使用图像查询(多模态)
API 访问(无需 GPU)
如果自托管过于繁重,可使用 Moonshot 的官方 API:
工具调用
K2.5 在代理化工具使用方面表现出色:
Docker 快速开始
给 Clore.ai 用户的提示
API 与自托管的取舍:完整的 K2.5 需要 8× H200,约 $24–48/天。Moonshot 的 API 提供免费额度或按 token 计费——用于探索请使用 API,长期生产负载建议自托管。
单 GPU 上的量化:Unsloth 的 GGUF Q2_K_XL(约 375GB)可在 RTX 4090($0.5–2/天)上通过 CPU 卸载和 256GB 内存运行——预期约 ~5–10 token/s。对于个人使用和开发足够。
面向预算的纯文本 K2:如果你不需要视觉功能,
moonshotai/Kimi-K2-Instruct是纯文本的前身——相同的 1T MoE,但部署更轻便(无视觉编码器开销)。正确设置温度:使用
temperature=0.6用于即时模式,temperature=1.0用于思考模式。错误的温度会导致重复或不连贯。为吞吐量使用专家并行:在多节点部署上,使用
--enable-expert-parallel在 vLLM 中以获得更高吞吐量。请查阅 vLLM 文档了解 EP 配置。
# 使用固定种子以获得一致结果
OutOfMemoryError 使用完整模型时
需要 8× H200(总计 1128GB)。使用 FP8 权重,设置 --gpu-memory-utilization 0.90.
GGUF 推理非常慢
确保为量化大小准备足够的内存。Q2_K_XL 需要约 375GB 的 RAM+VRAM 总和。
llama.cpp 中视觉功能不可用
K2.5 GGUF 的视觉支持尚不可用——请使用 vLLM 以获得多模态支持。
输出重复
设置 temperature=0.6 (即时)或 1.0 (思考)。添加 min_p=0.01.
模型下载耗时极长
~630GB 的 FP8 检查点。使用 huggingface-cli download 与 --resume-download.
工具调用未解析
添加 --tool-call-parser kimi_k2 --enable-auto-tool-choice 到 vLLM serve 命令中。
延伸阅读
最后更新于
这有帮助吗?