# MiMo-V2.5-Pro（小米 1T MoE）

{% hint style="info" %}
**状态（2026年4月）：** MiMo-V2.5-Pro 于 **2026年4月27日** 由小米 AI 部门发布，作为其 **Pro** 档位中的首个开权重模型——此前的 MiMo-V2-Pro 仅提供 API，没有公开权重。权重地址： [huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro) ，采用 **MIT 许可证**。模型卡最后更新于2026年4月28日，因此部署工具、社区量化版本和复现工作仍在逐日落地中。
{% endhint %}

MiMo-V2.5-Pro 是一个 **1.02 万亿参数的专家混合（Mixture-of-Experts）** 模型，每个 token 仅激活 **约 420 亿参数**。MiMo 团队——由前 DeepSeek 研究员 **罗福莉** 领导——围绕两个思路设计了它： **混合注意力方案** ，以 6:1 的比例融合滑动窗口注意力（SWA）和全局注意力（GA）（在 128 token 窗口下，KV 缓存约减少 7 倍），以及 **3 个轻量级多 token 预测（MTP）模块** ，在 **自回归工作负载上带来约 3 倍输出速度** 。该架构共有 70 层（1 个 dense + 69 个 MoE），隐藏维度 6144，并原生采用 **FP8 E4M3 混合精度**.

。这对 Clore.ai 用户有两点重要意义。首先，这是 **首个公开权重的 MiMo Pro 版本**：之前的 Pro 变体只作为托管 API 存在，也只在 OpenRouter 上以隐身测试的“Hunter Alpha”模型形式出现过（时间线为 2026 年 3 月）。其次， **MIT 许可证** 直接取消了商业限制——可微调、可再分发、可作为付费端点运行，没有任何附加条件。小米的发布公告声称 V2.5-Pro **在智能体任务上击败了 DeepSeek V4**，但该基准仅由厂商发布——第三方复现尚未到位，在没有此说明的情况下不应对外引用。

### 关键规格

| 属性    | 数值                                                    |
| ----- | ----------------------------------------------------- |
| 总参数量  | 1.02T（MoE）                                            |
| 激活参数量 | 每次前向传播约 420 亿                                         |
| 上下文窗口 | 1,000,000 tokens（100万）                                |
| 精度    | FP8 E4M3 混合（原生）                                       |
| 架构    | 混合 SWA + GA（6:1），70 层（1 个 dense + 69 个 MoE），隐藏维度 6144 |
| KV 缓存 | 滑动窗口 128，相比完整 GA 约减少 7 倍                              |
| 推测解码  | 3 个轻量级 MTP 模块，输出速度约提升 3 倍                             |
| 许可证   | MIT                                                   |
| 发布日期  | 2026年4月27日                                            |
| 机构    | 小米 MiMo 团队（HuggingFace 上的 XiaomiMiMo）                 |
| 主要工具链 | SGLang（优先支持）、vLLM                                     |

### 为什么选择 MiMo-V2.5-Pro？

* **首个开权重的 Pro 级 MiMo** ——前代 MiMo-V2-Pro 仅支持 API，这是第一次公开 Pro 权重
* **100万 token 上下文** ——可处理完整代码库、长智能体轨迹或多文档 RAG，无需切块
* **混合注意力** ——6:1 的 SWA + GA 相比纯全局注意力将 KV 缓存压缩约 7 倍；长上下文更易处理
* **原生 FP8** ——没有后处理量化，权重由厂商直接以 FP8 E4M3 形式发布
* **MTP 推测解码** ——内置 3 个 MTP 模块，开箱即得约 3 倍解码吞吐
* **MIT 许可证** ——无商业限制，无用途限制
* **420 亿激活** ——尽管标题参数量为 1.02T，但推理成本按 420 亿密集模型计算
* **谱系** ——首席研究员罗福莉此前在 DeepSeek 任职，架构选择也体现出这一背景

***

## 需求

{% hint style="warning" %}
**它仍然是一个 1T 级模型。** “420 亿激活”听起来很友好，但完整的 1.02T 权重必须驻留在 VRAM 中（或被大幅卸载）。原生 FP8 权重在激活内存和 KV 缓存之前就需要 **约 600GB 以上 VRAM** 。要支持完整上下文的 FP8，请预留 8×H200 或更高配置。
{% endhint %}

| 组件     | 最低配置（量化 + 卸载，未来）             | 推荐配置（FP8）           | 完整 FP8，100万上下文         |
| ------ | ---------------------------- | ------------------- | ---------------------- |
| GPU 显存 | 约 141GB（Q4 + RAM 卸载，量化版本发布后） | 8× H100 80GB（640GB） | 8× H200 141GB（1,128GB） |
| 内存     | 256GB                        | 512GB               | 512GB                  |
| 磁盘     | 700GB NVMe                   | 1.5TB NVMe          | 2TB NVMe               |
| CUDA   | 12.4+                        | 12.6+               | 12.6+                  |

**Clore.ai 选择：** 对于在 100万 上下文下仍有余量的完整 FP8， **8×H200** 是最自然的选择——见 [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html)。8×H100 80GB 也能运行该 FP8 检查点，但你需要将 `--context-length` 设得更低（通常 256K）以给 KV 缓存留出空间。对于 Blackwell 级硬件，请见 [clore.ai/rent-b200.html](https://clore.ai/rent-b200.html).

***

## 选项 A — Ollama / GGUF（量化，社区构建）

{% hint style="warning" %}
**提示：** 截至 2026年4月28日（发布后一天） **MiMo-V2.5-Pro 的社区 GGUF 量化版本尚未发布**。预计 Q4\_K\_M / Q5\_K\_M / Q6\_K 构建会在 1–2 周内出现在 [huggingface.co/models?search=mimo-v2.5-pro+gguf](https://huggingface.co/models?search=mimo-v2.5-pro+gguf)。在此之前，推荐通过 SGLang 或 vLLM 使用 FP8。
{% endhint %}

```bash
# 一旦有 Q4_K_M 构建可用
docker exec ollama ollama pull mimo-v2.5-pro:q4_K_M
docker exec ollama ollama run mimo-v2.5-pro:q4_K_M

# 或者在 GGUF 文件上直接使用 llama.cpp（发布后）
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/mimo-v2.5-pro-q4_k_m.gguf \
  --n-gpu-layers 99 --ctx-size 65536 \
  --port 8080 --host 0.0.0.0
```

***

## 选项 B — vLLM（生产级 API，推荐）

vLLM 通过 `--trust-remote-code` 支持 MiMo-V2.5-Pro（混合注意力 + MTP 模块作为仓库中的自定义代码提供）。使用厂商推荐的采样默认值： **temperature 1.0, top\_p 0.95**.

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model XiaomiMiMo/MiMo-V2.5-Pro
      --tensor-parallel-size 8
      --quantization fp8
      --max-model-len 262144
      --gpu-memory-utilization 0.90
      --trust-remote-code
      --served-model-name mimo-v2.5-pro
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# 测试 API（厂商推荐采样）
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5-pro",
    "messages": [
      {"role": "system", "content": "你是一个自主编码智能体。"},
      {"role": "user", "content": "浏览这个 3 万行的单体仓库，并提出一个从 Express 4 迁移到 Fastify 5 的计划。"}
    ],
    "max_tokens": 8192,
    "temperature": 1.0,
    "top_p": 0.95
  }'
```

{% hint style="info" %}
在 8×H100 80GB 上，将 `--max-model-len` 限制为 262144（256K），为激活和 KV 缓存留出余量。在 8×H200 141GB 上，你可以轻松提升到 524288 或更高；1,048,576（完整 100万）是可行的，但预填充时间会很长——在依赖它之前请先测试。
{% endhint %}

***

## 选项 C — SGLang（最大吞吐推荐）

SGLang 是 MiMo-V2.5-Pro 模型卡中的 **首选服务目标** 。厂商发布的启动命令中使用 **`SGLANG_ENABLE_SPEC_V2=1`** 来启用新的、感知 MTP 的推测解码路径，约 3 倍的解码加速实际上就是在这里实现的。

```bash
docker pull lmsysorg/sglang:latest

# 直接摘自 HF 模型卡
SGLANG_ENABLE_SPEC_V2=1 python3 -m sglang.launch_server \
    --model-path XiaomiMiMo/MiMo-V2.5-Pro \
    --trust-remote-code \
    --quantization fp8 \
    --context-length 1048576 \
    --host 0.0.0.0 --port 9001
```

对于在 8×H200 上的多 GPU TP 配置，添加 `--tp-size 8` 和 `--mem-fraction-static 0.88`。在发送真实流量前，使用 `nvidia-smi` 确认 8 块卡都已被占用——如果有一个 rank 资源不足，100万上下文会非常苛刻。

***

## Clore.ai GPU 推荐

| 配置            | VRAM    | 预期性能                                 | Clore.ai 成本   |
| ------------- | ------- | ------------------------------------ | ------------- |
| 4× H100 80GB  | 320GB   | FP8，重度卸载，最大上下文约 64K，约 10–15 tok/s    | 约 25–35 美元/天  |
| 8× H100 80GB  | 640GB   | 完整 FP8，最大上下文约 256K，约 30–45 tok/s     | 约 45–60 美元/天  |
| 8× H200 141GB | 1,128GB | 完整 FP8，最大上下文 100万，配合 MTP 约 60+ tok/s | 约 80–110 美元/天 |
| 8× B200       | 1,536GB | 完整 FP8，最大上下文 100万，速度最快               | 市场定价          |

{% hint style="success" %}
**最佳性价比：** 在 FP8 检查点上使用 8× H200 141GB，并配合 `SGLANG_ENABLE_SPEC_V2=1`。你将获得完整的 100万上下文窗口、MTP 推测解码，以及足以支持真实智能体循环的 KV 缓存余量。请见 [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html) 以查看实时可用性。
{% endhint %}

***

## 使用场景

* **长周期智能体** ——MiMo 团队明确针对持续工具调用进行了调优。100万上下文加上 MTP 加速，意味着无需切块技巧即可进行成千上万次工具调用。
* **全代码库分析** ——将一个 50 万 token 的单体仓库放入上下文中，用于重构规划、依赖审计或迁移设计
* **长文档 RAG** ——整本书、多年的客户对话记录，或一整年的聊天历史都能放进一个提示词中
* **编程** ——厂商声称 HumanEval+ 达到 75.6%，再加上其智能体倾向，使其成为自主软件工程工作负载的候选者（可与 SWE-agent / OpenHands 搭配）
* **研究草稿本** ——100万上下文可容纳“把整篇论文、把相关工作都贴进来，然后要求综合”的使用方式，而小模型通常会截断

***

## 基准

{% hint style="warning" %}
**厂商声称——尚无第三方复现。** 以下所有数字均来自小米 2026年4月27日的公告和 HuggingFace 模型卡。该模型在撰写时 **才两天大** ——针对智能体和长上下文基准的独立复现仍在等待中。尤其是“在智能体任务上击败 DeepSeek V4”的说法来自小米自己的文稿；在未被复现前，请将其视为营销内容。
{% endhint %}

| 基准项                        | MiMo-V2.5-Pro（厂商） | 备注               |
| -------------------------- | ----------------- | ---------------- |
| GSM8K                      | **99.6%**         | 数学应用题            |
| HumanEval+                 | 75.6%             | 编程（扩展）           |
| MMLU                       | 89.4%             | 通用知识             |
| GraphWalks（100万上下文）BFS     | 0.37              | 长上下文图遍历          |
| GraphWalks（100万上下文）Parents | 0.62              | 长上下文图遍历          |
| 对 DeepSeek V4 的智能体任务       | “优于”（厂商）          | **未验证——第三方复现待定** |

***

## 故障排查

| 问题                        | 解决方案                                                                                                           |
| ------------------------- | -------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` 在加载时   | 原生 FP8 仍需要约 600GB 以上 VRAM。请使用 8× H200，或将 `--context-length` 在 8× H100 上降至 65536。                               |
| HuggingFace 下载缓慢          | `huggingface-cli download XiaomiMiMo/MiMo-V2.5-Pro --local-dir ./weights --resume-download`。预计会有约 600GB 的 FP8。 |
| `--trust-remote-code` 被拒绝 | 混合注意力和 MTP 作为仓库中的自定义代码提供。该标志 **是必需的** ，适用于 vLLM 和 SGLang。                                                      |
| SGLang 中没有出现 MTP 加速       | 确认 `SGLANG_ENABLE_SPEC_V2=1` 已在与 `python3 -m sglang.launch_server`相同的 shell 中导出。默认路径不会激活 MTP。                  |
| 推理轨迹平淡 / 质量低              | 使用 `temperature=1.0` 和 `top_p=0.95`。较低温度会削弱 MiMo 的推理表现。                                                        |
| 100万上下文在 8× H100 上 OOM    | 8× H100 80GB 无法容纳 100万 token 的 KV 缓存。请将上限设为 256K，或迁移到 8× H200。                                                 |
| 预填充需要几分钟                  | 在 100万上下文下是预期现象。请使用 `--enable-chunked-prefill` （vLLM）或将较短请求批量处理，以适用于交互式工作负载。                                   |
| GGUF / Ollama 拉取失败        | 截至 2026年4月28日，社区量化版本尚未发布。请等待 1–2 周，或直接使用 FP8。                                                                  |

***

## 下一步

* **前代 / 同级：** [MiMo-V2-Flash](/guides/guides_v2-zh/yu-yan-mo-xing/mimo-v2-flash.md) ——309B MoE，150亿激活，32K 上下文，更快但更小
* **厂商声称的竞争对手：** [DeepSeek V4](/guides/guides_v2-zh/yu-yan-mo-xing/deepseek-v4.md) ——100万上下文、多模态、约 1T 参数（小米称其在智能体任务上战胜的模型）
* **开权重编程竞品：** [GLM-5.1](/guides/guides_v2-zh/yu-yan-mo-xing/glm-5-1.md) ——744B MoE，400亿激活，MIT，目前在 SWE-Bench Pro 上排名第一
* **Clore.ai H200 租赁：** [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html) ——适合在 100万上下文下运行完整 FP8 1T MoE 的最佳选择
* **Clore.ai 市场：** [clore.ai/marketplace](https://clore.ai/marketplace)

### 链接

* [HuggingFace 上的 MiMo-V2.5-Pro](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro)
* [小米 MiMo HuggingFace 组织](https://huggingface.co/XiaomiMiMo)
* [SGLang 仓库](https://github.com/sgl-project/sglang)
* [vLLM 文档](https://docs.vllm.ai)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/mimo-v25-pro.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.