Kimi K2.5

在 Clore.ai GPU 上部署 Moonshot AI 的 Kimi K2.5(1T MoE 多模态)

Kimi K2.5,由 Moonshot AI 于 2026 年 1 月 27 日发布,是一个 1 万亿参数的专家混合(Mixture-of-Experts)多模态模型 每个 token 有 320 亿活跃参数。通过在 Kimi-K2-Base 基础上对约 15 万亿混合视觉与文本 token 进行持续预训练构建,原生理解文本、图像和视频。K2.5 引入了 Agent Swarm 技术——可同时协调多达 100 个专用 AI 代理——并在编码(76.8% SWE-bench Verified)、视觉和代理任务上实现前沿级性能。在 HuggingFace 上以 开源权重许可 提供。

主要特性

  • 总计 1T / 活跃 32B — 具有 MLA 注意力和 SwiGLU 的 384 专家 MoE 架构

  • 原生多模态 — 在视觉-语言 token 上预训练;理解图像、视频和文本

  • Agent Swarm — 通过动态生成的代理将复杂任务分解为并行子任务

  • 256K 上下文窗口 — 可处理整个代码库、长文档和视频转录

  • 混合推理 — 支持即时模式(快速)和思考模式(深度推理)

  • 强大的编码能力 — 76.8% SWE-bench Verified,73.0% SWE-bench 多语言

要求

Kimi K2.5 是一个超大模型——FP8 检查点约为 630GB。自托管需要强大的硬件。

组件
量化(GGUF Q2)
FP8 全精度

GPU

1× RTX 4090 + 256GB 内存

8× H200 141GB

显存

24GB + CPU 交换卸载

1,128GB

内存

256GB+

256GB

磁盘

400GB SSD

700GB NVMe

CUDA

12.0+

12.0+

Clore.ai 建议:对于全精度推理,租用 8× H200(约 $24–48/天)。对于量化的本地推理,单个 H100 80GB 或甚至 RTX 4090 + 大量 CPU 卸载可以以降低的速度工作。

使用 llama.cpp 的快速入门(量化)

在本地运行 K2.5 的最便捷方法——使用 Unsloth 的 GGUF 量化:

注意:在 K2.5 的 GGUF/llama.cpp 中尚不支持视觉功能。要使用多模态功能,请使用 vLLM。

vLLM 设置(生产环境——完整模型)

要在生产环境中提供完整多模态支持的服务:

在 8× H200 GPU 上提供服务

使用文本查询

使用图像查询(多模态)

API 访问(无需 GPU)

如果自托管过于繁重,可使用 Moonshot 的官方 API:

工具调用

K2.5 在代理化工具使用方面表现出色:

Docker 快速开始

给 Clore.ai 用户的提示

  • API 与自托管的取舍:完整的 K2.5 需要 8× H200,约 $24–48/天。Moonshot 的 API 提供免费额度或按 token 计费——用于探索请使用 API,长期生产负载建议自托管。

  • 单 GPU 上的量化:Unsloth 的 GGUF Q2_K_XL(约 375GB)可在 RTX 4090($0.5–2/天)上通过 CPU 卸载和 256GB 内存运行——预期约 ~5–10 token/s。对于个人使用和开发足够。

  • 面向预算的纯文本 K2:如果你不需要视觉功能, moonshotai/Kimi-K2-Instruct 是纯文本的前身——相同的 1T MoE,但部署更轻便(无视觉编码器开销)。

  • 正确设置温度:使用 temperature=0.6 用于即时模式, temperature=1.0 用于思考模式。错误的温度会导致重复或不连贯。

  • 为吞吐量使用专家并行:在多节点部署上,使用 --enable-expert-parallel 在 vLLM 中以获得更高吞吐量。请查阅 vLLM 文档了解 EP 配置。

# 使用固定种子以获得一致结果

问题
解决方案

OutOfMemoryError 使用完整模型时

需要 8× H200(总计 1128GB)。使用 FP8 权重,设置 --gpu-memory-utilization 0.90.

GGUF 推理非常慢

确保为量化大小准备足够的内存。Q2_K_XL 需要约 375GB 的 RAM+VRAM 总和。

llama.cpp 中视觉功能不可用

K2.5 GGUF 的视觉支持尚不可用——请使用 vLLM 以获得多模态支持。

输出重复

设置 temperature=0.6 (即时)或 1.0 (思考)。添加 min_p=0.01.

模型下载耗时极长

~630GB 的 FP8 检查点。使用 huggingface-cli download--resume-download.

工具调用未解析

添加 --tool-call-parser kimi_k2 --enable-auto-tool-choice 到 vLLM serve 命令中。

延伸阅读

最后更新于

这有帮助吗?