> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/mimo-v25-pro.md).

# MiMo-V2.5-Pro (Xiaomi 1T MoE)

{% hint style="info" %}
**Статус (апрель 2026):** MiMo-V2.5-Pro был выпущен **27 апреля 2026 года** подразделением ИИ Xiaomi как первая модель с открытыми весами в их **Pro** уровне — предыдущий MiMo-V2-Pro был доступен только через API без публичных весов. Весы доступны на [huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro) под **лицензией MIT**. Карточка модели в последний раз обновлялась 28 апреля 2026 года, так что инструменты развёртывания, community-кванты и воспроизведения результатов всё ещё появляются день за днём.
{% endhint %}

MiMo-V2.5-Pro — это **MoE-модель с 1,02 трлн параметров** которая активирует только **\~42 млрд параметров на токен**. Команда MiMo — под руководством бывшего исследователя DeepSeek **Ло Фули** — спроектировала её вокруг двух идей: **гибридной схемы внимания** , которая сочетает Sliding Window Attention (SWA) и Global Attention (GA) в соотношении 6:1 (\~7-кратное сокращение KV-кэша при окне 128 токенов), и **3 лёгких модулей Multi-Token Prediction (MTP)** , которые обеспечивают примерно **3-кратную скорость вывода** на авторегрессионных нагрузках. Архитектура имеет 70 слоёв (1 dense + 69 MoE), скрытый размер 6144 и изначально поставляется в **смешанной точности FP8 E4M3**.

Для пользователей Clore.ai важны две вещи. Во-первых, это **первый релиз MiMo Pro с публичными весами**: предыдущие варианты Pro существовали только как размещённый API и как проходившая скрытое тестирование модель "Hunter Alpha" на OpenRouter (таймлайн марта 2026). Во-вторых, **лицензией MIT** полностью снимает коммерческие ограничения — дообучайте, распространяйте, запускайте как платную конечную точку, без оговорок. В объявлении о запуске Xiaomi утверждает, что V2.5-Pro **превосходит DeepSeek V4 в агентных задачах**, но этот бенчмарк опубликован только самим вендором — стороннего воспроизведения пока нет, и не следует цитировать это вовне без этого предупреждения.

### Ключевые характеристики

| Параметр                    | Значение                                                        |
| --------------------------- | --------------------------------------------------------------- |
| Общее число параметров      | 1,02T (MoE)                                                     |
| Активные параметры          | \~42B на прямой проход                                          |
| Окно контекста              | 1 000 000 токенов (1M)                                          |
| Точность                    | FP8 E4M3 mixed (нативно)                                        |
| Архитектура                 | Гибрид SWA + GA (6:1), 70 слоёв (1 dense + 69 MoE), hidden 6144 |
| KV-кэш                      | Скользящее окно 128, \~7× меньше по сравнению с полным GA       |
| Спекулятивное декодирование | 3 лёгких модуля MTP, \~3× скорость вывода                       |
| Лицензия                    | MIT                                                             |
| Дата выпуска                | 27 апреля 2026 года                                             |
| Организация                 | Команда Xiaomi MiMo (XiaomiMiMo на HuggingFace)                 |
| Основные инструменты        | SGLang (приоритетный), vLLM                                     |

### Почему MiMo-V2.5-Pro?

* **Первый открытый MiMo уровня Pro** — предыдущий MiMo-V2-Pro был только API-версией, это первый случай, когда веса Pro публичны
* **Контекст 1M токенов** — обрабатывает целые кодовые базы, длинные агентные трассы или много-документный RAG без чанкинга
* **Гибридное внимание** — SWA + GA в соотношении 6:1 сокращает KV-кэш примерно в 7 раз по сравнению с чистым глобальным вниманием; длинные контексты остаются управляемыми
* **Нативный FP8** — без постфактум-квантизации, веса поставляются в FP8 E4M3 напрямую от вендора
* **Спекулятивное декодирование MTP** — 3 встроенных модуля MTP дают \~3× пропускную способность декодирования из коробки
* **лицензией MIT** — без коммерческих ограничений, без ограничений по области применения
* **42B активных** — вы платите стоимость инференса для 42B dense, несмотря на заголовочное число 1.02T
* **Происхождение** — ведущий исследователь Ло Фули ранее работал в DeepSeek, и архитектурные решения это показывают

***

## Требования

{% hint style="warning" %}
**Это всё ещё модель на 1T.** "42B active" звучит приятно, но полные 1.02T весов должны находиться в VRAM (или быть агрессивно выгружены). Нативные FP8-веса требуют **\~600GB+ VRAM** до учёта памяти активаций и KV-кэша. Планируйте 8×H200 или больше для полного FP8 на полном контексте.
{% endhint %}

| Компонент | Минимум (квантизация + offload, в будущем)           | Рекомендуется (FP8)  | Полный FP8, 1M ctx      |
| --------- | ---------------------------------------------------- | -------------------- | ----------------------- |
| GPU VRAM  | \~141GB (Q4 + выгрузка в RAM, когда появятся кванты) | 8× H100 80GB (640GB) | 8× H200 141GB (1 128GB) |
| RAM       | 256GB                                                | 512GB                | 512GB                   |
| Диск      | 700GB NVMe                                           | 1.5TB NVMe           | 2TB NVMe                |
| CUDA      | 12.4+                                                | 12.6+                | 12.6+                   |

**Выбор Clore.ai:** Для полного FP8 с запасом на контекст 1M, **8×H200** — естественный выбор, см. [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html). 8×H100 80GB тоже запускает FP8-чекпойнт, но вам придётся ограничить `--context-length` ниже (обычно 256K), чтобы оставить место для KV-кэша. Для оборудования класса Blackwell см. [clore.ai/rent-b200.html](https://clore.ai/rent-b200.html).

***

## Вариант A — Ollama / GGUF (квантизированные, community-сборки)

{% hint style="warning" %}
**Важное замечание:** На 28 апреля 2026 года (через день после релиза) **community GGUF-кванты для MiMo-V2.5-Pro ещё не опубликованы**. Ожидайте появления сборок Q4\_K\_M / Q5\_K\_M / Q6\_K в течение 1–2 недель на [huggingface.co/models?search=mimo-v2.5-pro+gguf](https://huggingface.co/models?search=mimo-v2.5-pro+gguf). До тех пор поддерживаемый путь — FP8 через SGLang или vLLM.
{% endhint %}

```bash
# Когда станет доступна сборка Q4_K_M
docker exec ollama ollama pull mimo-v2.5-pro:q4_K_M
docker exec ollama ollama run mimo-v2.5-pro:q4_K_M

# Или напрямую через llama.cpp на GGUF-файле (когда будет опубликован)
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/mimo-v2.5-pro-q4_k_m.gguf \
  --n-gpu-layers 99 --ctx-size 65536 \
  --port 8080 --host 0.0.0.0
```

***

## Вариант B — vLLM (production API, рекомендуется)

vLLM поддерживает MiMo-V2.5-Pro через `--trust-remote-code` (гибридное внимание + модули MTP поставляются как пользовательский код в репозитории). Используйте стандартные параметры сэмплирования вендора: **temperature 1.0, top\_p 0.95**.

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model XiaomiMiMo/MiMo-V2.5-Pro
      --tensor-parallel-size 8
      --quantization fp8
      --max-model-len 262144
      --gpu-memory-utilization 0.90
      --trust-remote-code
      --served-model-name mimo-v2.5-pro
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Тест API (рекомендуемое вендором сэмплирование)
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5-pro",
    "messages": [
      {"role": "system", "content": "Вы — автономный агент по написанию кода."},
      {"role": "user", "content": "Пройди по этому монорепозиторию на 30K строк и предложи план миграции с Express 4 на Fastify 5."}
    ],
    "max_tokens": 8192,
    "temperature": 1.0,
    "top_p": 0.95
  }'
```

{% hint style="info" %}
На 8×H100 80GB ограничьте `--max-model-len` значением 262144 (256K), чтобы оставить запас для активаций + KV-кэша. На 8×H200 141GB можно комфортно подняться до 524288 или выше; 1 048 576 (полный 1M) возможно, но ожидайте долгих prefill-проходов — протестируйте перед тем, как полагаться на это.
{% endhint %}

***

## Вариант C — SGLang (рекомендуется для максимальной пропускной способности)

SGLang — это **приоритетная целевая система обслуживания** в карточке модели MiMo-V2.5-Pro. Вендор публикует команду запуска с **`SGLANG_ENABLE_SPEC_V2=1`** для активации нового пути спекулятивного декодирования, учитывающего MTP, где и проявляется ускорение декодирования примерно в 3 раза.

```bash
docker pull lmsysorg/sglang:latest

# Дословно из карточки модели на HF
SGLANG_ENABLE_SPEC_V2=1 python3 -m sglang.launch_server \
    --model-path XiaomiMiMo/MiMo-V2.5-Pro \
    --trust-remote-code \
    --quantization fp8 \
    --context-length 1048576 \
    --host 0.0.0.0 --port 9001
```

Для многогпу TP-конфигурации на 8×H200 добавьте `--tp-size 8` и `--mem-fraction-static 0.88`. Проверьте через `nvidia-smi` что все 8 карт задействованы, прежде чем отправлять реальный трафик — контекст 1M не прощает, если одному рангу не хватает ресурсов.

***

## Рекомендации по GPU для Clore.ai

| Конфигурация  | VRAM    | Ожидаемая производительность                                    | Стоимость на Clore.ai |
| ------------- | ------- | --------------------------------------------------------------- | --------------------- |
| 4× H100 80GB  | 320GB   | FP8 с сильным offload, макс. контекст \~64K, \~10–15 ток/с      | \~$25–35/день         |
| 8× H100 80GB  | 640GB   | полный FP8, макс. контекст \~256K, \~30–45 ток/с                | \~$45–60/день         |
| 8× H200 141GB | 1 128GB | полный FP8, макс. контекст 1M, \~60+ ток/с с MTP                | \~$80–110/день        |
| 8× B200       | 1 536GB | полный FP8, макс. контекст 1M, самая высокая доступная скорость | цены маркетплейса     |

{% hint style="success" %}
**Лучшая цена:** 8× H200 141GB на FP8-чекпойнте с `SGLANG_ENABLE_SPEC_V2=1`. Вы получаете полноценное окно контекста 1M, спекулятивное декодирование MTP и достаточный запас KV-кэша для реальных агентных циклов. См. [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html) для актуальной доступности.
{% endhint %}

***

## Сценарии использования

* **Агенты с длинным горизонтом** — команда MiMo явно настраивает модель под устойчивые tool-calls. Контекст 1M плюс ускорение MTP означают тысячи обращений к инструментам без хитростей с чанкингом.
* **Анализ всей кодовой базы** — загрузите монорепозиторий на 500K токенов в контекст для планирования рефакторинга, аудита зависимостей или проектирования миграции
* **RAG по длинным документам** — целые книги, многолетние клиентские транскрипты или истории чатов за год помещаются в один prompt
* **Кодинг** — заявленные вендором HumanEval+ 75.6% и агентный профиль делают модель кандидатом для автономных SWE-задач (в связке с SWE-agent / OpenHands)
* **Исследовательский черновик** — контекст 1M терпит сценарий «вставь всю статью, вставь предыдущие работы, попроси синтез», который меньшие модели обрезают

***

## Бенчмарки

{% hint style="warning" %}
**Заявлено вендором — стороннего воспроизведения пока нет.** Все числа ниже взяты из анонса Xiaomi от 27 апреля 2026 года и карточки модели на HuggingFace. Модели **всего два дня** на момент написания — независимые воспроизведения на агентных и длинноконтекстных бенчмарках всё ещё ожидаются. В частности, утверждение "превосходит DeepSeek V4 в агентных задачах" взято из собственного материала Xiaomi; считайте это маркетингом до подтверждения воспроизведением.
{% endhint %}

| Бенчмарк                           | MiMo-V2.5-Pro (вендор) | Примечания                                                    |
| ---------------------------------- | ---------------------- | ------------------------------------------------------------- |
| GSM8K                              | **99.6%**              | Текстовые задачи по математике                                |
| HumanEval+                         | 75.6%                  | Кодинг (расширенный)                                          |
| MMLU                               | 89.4%                  | Общие знания                                                  |
| GraphWalks (1M ctx) BFS            | 0.37                   | Обход графа в длинном контексте                               |
| GraphWalks (1M ctx) Parents        | 0.62                   | Обход графа в длинном контексте                               |
| Агентные задачи против DeepSeek V4 | "превосходит" (вендор) | **Не подтверждено — воспроизведение стороной пока ожидается** |

***

## Устранение неполадок

| Проблема                                          | Решение                                                                                                                                                          |
| ------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` при загрузке                   | Нативный FP8 всё ещё требует \~600GB+ VRAM. Используйте 8× H200 или уменьшите `--context-length` до 65536 на 8× H100.                                            |
| Медленная загрузка с HuggingFace                  | `huggingface-cli download XiaomiMiMo/MiMo-V2.5-Pro --local-dir ./weights --resume-download`. Ожидайте \~600GB FP8.                                               |
| `--trust-remote-code` отклонено                   | Гибридное внимание и MTP поставляются как пользовательский код в репозитории. Флаг **обязателен** как для vLLM, так и для SGLang.                                |
| Ускорение MTP не проявляется в SGLang             | Проверьте `SGLANG_ENABLE_SPEC_V2=1` экспортируется ли в той же оболочке, где запускается `python3 -m sglang.launch_server`. Путь по умолчанию не активирует MTP. |
| Трассировка рассуждений плоская / низкое качество | Используйте `temperature=1.0` и `top_p=0.95`. Более низкая температура ухудшает поведение рассуждений MiMo.                                                      |
| OOM на 1M контексте на 8× H100                    | 8× H100 80GB не может удержать KV-кэш для 1M токенов. Ограничьте до 256K или перейдите на 8× H200.                                                               |
| Prefill занимает минуты                           | Ожидаемо при контексте 1M. Используйте `--enable-chunked-prefill` (vLLM) или группируйте более короткие запросы для интерактивных сценариев.                     |
| Не удаётся выполнить pull GGUF / Ollama           | Community-кванты на 28 апреля 2026 года ещё не опубликованы. Подождите 1–2 недели или используйте FP8 напрямую.                                                  |

***

## Следующие шаги

* **Предшественник / родственная модель:** [MiMo-V2-Flash](/guides/guides_v2-ru/yazykovye-modeli/mimo-v2-flash.md) — 309B MoE, 15B активных, 32K ctx, быстрее, но меньше
* **Заявленный конкурент от вендора:** [DeepSeek V4](/guides/guides_v2-ru/yazykovye-modeli/deepseek-v4.md) — 1M ctx, мультимодальная, \~1T параметров (модель, которую, по словам Xiaomi, они превзошли в агентных задачах)
* **Открытый конкурент в кодинге:** [GLM-5.1](/guides/guides_v2-ru/yazykovye-modeli/glm-5-1.md) — 744B MoE, 40B активных, MIT, сейчас #1 на SWE-Bench Pro
* **Аренда Clore.ai H200:** [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html) — лучший вариант для полного FP8 1T MoE при контексте 1M
* **Маркетплейс Clore.ai:** [clore.ai/marketplace](https://clore.ai/marketplace)

### Ссылки

* [MiMo-V2.5-Pro на HuggingFace](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro)
* [Организация Xiaomi MiMo на HuggingFace](https://huggingface.co/XiaomiMiMo)
* [репозиторий SGLang](https://github.com/sgl-project/sglang)
* [документация vLLM](https://docs.vllm.ai)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/mimo-v25-pro.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
