> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/minimax-m27.md).

# MiniMax M2.7 (229B MoE Coding)

{% hint style="info" %}
**Статус (апрель 2026):** MiniMax M2.7 был опубликован на HuggingFace **9 апреля 2026** компанией MiniMaxAI и достиг **496 тыс. загрузок за три недели** — по степени принятия это крупнейший релиз с открытыми весами в нашем апрельском обновлении. Весы доступны на [huggingface.co/MiniMaxAI/MiniMax-M2.7](https://huggingface.co/MiniMaxAI/MiniMax-M2.7) по **кастомной лицензии MiniMax** (`license: other`). Это **не** Apache/MIT — прочитайте [ЛИЦЕНЗИЮ](https://huggingface.co/MiniMaxAI/MiniMax-M2.7/blob/main/LICENSE) перед любым коммерческим развёртыванием.
{% endhint %}

{% hint style="warning" %}
**Исправление:** В ранних версиях нашего индекса моделей M2.7 был указан как проприетарная модель только для API. К 9 апреля 2026 года это было неверно — веса общедоступны. Это руководство заменяет ту запись.
{% endhint %}

MiniMax M2.7 — это **MoE-модель с 229 миллиардами параметров** (256 экспертов, 8 активных на токен) и последняя модель в семействе M2 от MiniMax — линейке, построенной вокруг **саморазвивающегося / RL-ориентированного постобучения** и **агентного кодинга** задач. Релиз 2.7 — это публичный, пригодный для самостоятельного хостинга аналог размещённого MiniMax кодового агента, и MiniMax позиционирует его как конкурентоспособный с Claude Sonnet 4.5 на агентных бенчмарках, при этом на некоторых из них он приближается к территории Claude Opus 4.6.

Интересная архитектурная деталь — это **Чередующееся мышление** (впервые представлено в M2.1 и доработано в версиях 2.5/2.7): модель чередует `<think>` блоки рассуждений с обычной генерацией при многошаговых вызовах инструментов, поэтому цепочка мыслей сохраняется между возвратами после вызова функции, а не сбрасывается на каждом шаге. Именно это делает её интересной для агентов с длинным горизонтом — след рассуждений не обнуляется каждый раз, когда вы достигаете `tool_use` границы.

Для пользователей Clore.ai практическая новость состоит в том, что M2.7 поставляется с **контрольной точкой FP8 (float8\_e4m3fn)** в официальном репозитории. Это делает развёртывание на одном узле достижимым на **4× H100 80GB** или **2× H200 141GB** — без H200 octets или стоек на 16 GPU. Если вы уже запускаете [GLM-5.1](/guides/guides_v2-ru/yazykovye-modeli/glm-5-1.md) и хотите вторую модель с открытыми весами в своём агентном стеке с иным профилем смещения, это тот вариант, который стоит с ней сочетать.

### Ключевые характеристики

| Свойство                              | Значение                                                                                                                                            |
| ------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------- |
| Общее число параметров                | 229B (MoE, 256 экспертов)                                                                                                                           |
| Экспертов на токен                    | 8 из 256                                                                                                                                            |
| Активные параметры                    | **Официально не опубликовано** — см. карточку модели. В семействе M2 исторически \~10B активных параметров; перед публичным цитированием проверьте. |
| Скрытый размер / Слои                 | 3,072 / 62                                                                                                                                          |
| Внимание                              | 48 голов, 8 KV (GQA)                                                                                                                                |
| Окно контекста                        | 204 800 токенов (200K)                                                                                                                              |
| Типы тензоров                         | F32, BF16, F8\_E4M3                                                                                                                                 |
| MTP                                   | Предсказание нескольких токенов включено (3 модуля MTP)                                                                                             |
| Лицензия                              | **Кастомная MiniMax — по умолчанию только некоммерческое использование**                                                                            |
| Дата релиза                           | 9 апреля 2026                                                                                                                                       |
| Загрузки на HF (3 недели)             | \~496K                                                                                                                                              |
| Рекомендуемые параметры сэмплирования | `temperature=1.0`, `top_p=0.95`, `top_k=40`                                                                                                         |
| Основной стек инструментов            | vLLM, SGLang, Transformers, KTransformers, MLX-LM                                                                                                   |

### Зачем MiniMax M2.7?

* **Открытые веса на 229B** — крупнейшая «реальная» модель для кодинга с открытыми весами, которая всё ещё помещается на одном узле 4×H100 в FP8
* **Чередующееся мышление** — `<think>` блоки сохраняются между шагами вызовов инструментов, что действительно полезно для агентов в стиле SWE
* **Фокус на многоязычном кодинге** — MiniMax заявляет высокую производительность не только на Python, но и на Rust, Go, Java, Kotlin, Swift и TypeScript
* **Сигнал принятия** — 496K загрузок за три недели — это самый сильный отклик сообщества среди всех апрельских релизов 2026 года с открытыми весами, которые мы отслеживали
* **Поддержка MTP** — спекулятивное декодирование через модули Multi-Token Prediction встроено, что даёт реальный прирост пропускной способности на H100/H200
* **Резервный облачный вариант** — если рабочая нагрузка перерастёт один узел, у MiniMax есть размещённая конечная точка; на этапе архитектуры не нужно делать жёсткий выбор

***

## Требования

{% hint style="warning" %}
**229B — это всё ещё 229B.** Весы BF16 занимают \~460 ГБ. Контрольная точка FP8 — примерно половину этого объёма, \~230 ГБ, и именно это делает развёртывание на одном узле реальным. Комьюнити-кванты INT4 укладываются примерно в \~120 ГБ, но официально не поддерживаются.
{% endhint %}

| Компонент        | Хобби (INT4 GGUF, выгрузка)           | Рекомендуется (FP8 на одном узле)  | Полный BF16                  |
| ---------------- | ------------------------------------- | ---------------------------------- | ---------------------------- |
| VRAM GPU         | GPU 24–48 ГБ + выгрузка в RAM 128 ГБ+ | 4× H100 80GB **или** 2× H200 141GB | 8× H100 80GB / 4× H200 141GB |
| Общий объём VRAM | \~48 ГБ GPU + выгрузка                | 320 ГБ / 282 ГБ                    | 640 ГБ / 564 ГБ              |
| RAM              | 128 ГБ                                | 256 ГБ                             | 512 ГБ                       |
| Диск             | 200 ГБ NVMe                           | 400 ГБ NVMe                        | 600 ГБ NVMe                  |
| CUDA             | 12.0+                                 | 12.4+                              | 12.4+                        |

**Выбор Clore.ai:** Контрольная точка FP8 на **2× H200** — самый чистый вариант развёртывания: минимальное число разбиений tensor-parallel, меньше переходов NCCL, и математика для контекста 200K просто работает. **4× H100** — более дешёвая альтернатива, если запас H200 ограничен.

***

## Вариант A — Ollama / GGUF (квантизировано)

{% hint style="warning" %}
**Только комьюнити-кванты.** MiniMax не публикует официальные веса GGUF для M2.7. Комьюнити-сборки Q4/Q5 обычно появляются через 1–2 недели после релиза — ищите [huggingface.co/models?search=minimax-m2.7+gguf](https://huggingface.co/models?search=minimax-m2.7+gguf) и проверяйте загрузившего. Качество MoE-квантов ниже Q4 сильно варьируется.
{% endhint %}

```bash
# Когда появится комьюнити-сборка Q4_K_M (сначала проверьте HuggingFace)
docker exec ollama ollama pull minimax-m2.7:q4_K_M
docker exec ollama ollama run minimax-m2.7:q4_K_M

# Или напрямую с llama.cpp на загруженном GGUF
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/minimax-m2.7-q4_k_m.gguf \
  --n-gpu-layers 80 --ctx-size 32768 \
  --temp 1.0 --top-p 0.95 --top-k 40 \
  --port 8080 --host 0.0.0.0
```

Только для хобби-использования. Для реальных нагрузок используйте vLLM или SGLang с FP8-контрольной точкой.

***

## Вариант B — vLLM (продакшен API, рекомендуется)

vLLM — это основной целевой вариант сервинга. Официальная FP8-контрольная точка — именно её и следует загружать: то же качество, что у BF16, но примерно при вдвое меньшем расходе VRAM.

### docker-compose.yml — 4× H100 80GB

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model MiniMaxAI/MiniMax-M2.7
      --quantization fp8
      --tensor-parallel-size 4
      --max-model-len 65536
      --gpu-memory-utilization 0.88
      --enable-auto-tool-choice
      --tool-call-parser hermes
      --served-model-name minimax-m2.7
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

### docker-compose.yml — 2× H200 141GB

Снизьте `--tensor-parallel-size` до 2 и увеличьте `--max-model-len` чтобы использовать запас:

```yaml
    command: >
      --model MiniMaxAI/MiniMax-M2.7
      --quantization fp8
      --tensor-parallel-size 2
      --max-model-len 131072
      --gpu-memory-utilization 0.90
      --enable-auto-tool-choice
      --tool-call-parser hermes
      --enable-chunked-prefill
      --served-model-name minimax-m2.7
      --trust-remote-code
```

### Проверка

```bash
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "minimax-m2.7",
    "messages": [
      {"role": "system", "content": "You are a senior engineer. Use Interleaved Thinking when reasoning across tool calls."},
      {"role": "user", "content": "Audit this Rust async handler for tokio cancellation safety: ..."}
    ],
    "max_tokens": 4096,
    "temperature": 1.0,
    "top_p": 0.95
  }'
```

{% hint style="info" %}
**Не снижайте `temperature` ниже 1.0.** Рекомендуемый режим сэмплирования MiniMax — `T=1.0, top_p=0.95, top_k=40`. Жадное декодирование незаметно ломает `<think>` чередование при многошаговых вызовах инструментов.
{% endhint %}

***

## Вариант C — SGLang

Планировщик MoE в SGLang конкурентоспособен с vLLM на Hopper и часто выигрывает на длинных кодовых завершениях благодаря спекулятивному декодированию EAGLE, работающему в связке с модулями MTP у M2.7.

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \
  --model-path MiniMaxAI/MiniMax-M2.7 \
  --quantization fp8 \
  --tp-size 4 \
  --mem-fraction-static 0.88 \
  --context-length 65536 \
  --enable-mixed-chunk \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --served-model-name minimax-m2.7 \
  --trust-remote-code
```

Ожидайте прирост пропускной способности примерно в 1.5–2× по сравнению с обычным vLLM на длинных агентных трассах. Снизьте `--tp-size` до 2 на H200.

***

## Рекомендации по GPU для Clore.ai

| Конфигурация                      | VRAM           | Ожидаемая производительность                           | Стоимость на Clore.ai |
| --------------------------------- | -------------- | ------------------------------------------------------ | --------------------- |
| 1× RTX 4090 24GB + выгрузка в RAM | 24 ГБ + 128 ГБ | INT4 для хобби, \~5–10 ток/с                           | \~$1–2/день           |
| 4× A100 80GB                      | 320 ГБ         | Шардированный BF16, \~15–25 ток/с                      | \~$15–22/день         |
| **4× H100 80GB (FP8)**            | **320 ГБ**     | **Продакшен FP8, \~40–60 ток/с**                       | **\~$20–28/день**     |
| **2× H200 141GB (FP8)**           | **282 ГБ**     | **Продакшен FP8, \~50–70 ток/с, полный контекст 200K** | **\~$18–26/день**     |
| 8× H100 80GB                      | 640 ГБ         | Полный BF16, \~80+ ток/с                               | \~$40–55/день         |

{% hint style="success" %}
**Лучшая цена/качество:** 2× H200 с FP8-контрольной точкой. Та же категория пропускной способности, что и у 4× H100, но вдвое меньше переходов tensor-parallel; на маркетплейсе часто дешевле в расчёте на день, и при этом остаётся достаточный запас VRAM для полного контекста 200K.
{% endhint %}

Арендовать машины можно здесь:

* [**Арендовать H200 GPU**](https://clore.ai/rent-h200.html) — рекомендуется для развёртывания 2× H200 FP8
* [**Арендовать H100 GPU**](https://clore.ai/rent-h100.html) — для развёртывания 4× H100 FP8
* [**Арендовать A100 80GB**](https://clore.ai/rent-a100-80gb.html) — запасной вариант BF16 для нескольких GPU
* [**Арендовать RTX 4090**](https://clore.ai/rent-4090.html) — только для хобби-использования INT4
* [**Маркетплейс**](https://clore.ai/marketplace) — полный инвентарь, on-demand и spot-торги

***

## Сценарии использования

* **Многоязычные SWE-агенты** — Rust, Go, Java, Kotlin, Swift и TypeScript получают первоклассную поддержку, а не только Python/JS
* **Длинные циклы вызовов инструментов** — Чередующееся мышление сохраняет след рассуждений на протяжении сотен `tool_use` возвратов
* **Аудит кодовых баз** — контекст 200K позволяет уместить средний сервис и его тесты в один prompt
* **Пайплайны рефакторинга** — устойчивое сохранение корректности при множестве правок файлов благодаря модулям MTP
* **Оркестрация «агент агентов»** — используйте M2.7 как планировщик вместе с меньшей моделью (Qwen3.5, GLM-4.7-Flash) как исполнителем
* **Самостоятельно размещаемая альтернатива Claude Sonnet/Opus** для некоммерческих исследований в кодинге — но **сначала прочитайте лицензию**

***

## Бенчмарки

{% hint style="warning" %}
**Заявлено вендором — проверяйте независимо.** Ниже приведены числа из релиз-нотов MiniMax от 9 апреля 2026 года. Независимые воспроизведения ещё продолжают появляться.
{% endhint %}

| Бенчмарк         | MiniMax M2.7 | Claude Sonnet 4.5 (референс вендора) | Claude Opus 4.6 (референс вендора) | GPT-5.3-Codex |
| ---------------- | ------------ | ------------------------------------ | ---------------------------------- | ------------- |
| SWE-Pro          | **56.22%**   | \~55%                                | \~57.3%                            | 56.2%         |
| VIBE-Pro         | **55.6%**    | —                                    | \~57%                              | —             |
| Terminal Bench 2 | **57.0%**    | —                                    | —                                  | —             |
| GDPval-AA (ELO)  | **1495**     | —                                    | —                                  | —             |

Позиция MiniMax: M2.7 соответствует или превосходит Claude Sonnet 4.5 в том наборе агентного кодинга, который для них важен, и оказывается в пределах нескольких пунктов от Claude Opus 4.6 на SWE-Pro / VIBE-Pro. Считайте это направляющим сигналом, а не окончательным рейтингом — разрыв с закрытыми frontier-моделями с каждым релизом сокращается.

***

## Семейство MiniMax M2

| Версия   | Выпущена        | Архитектурный фокус                                       | Рекомендуется для                                        |
| -------- | --------------- | --------------------------------------------------------- | -------------------------------------------------------- |
| M2       | окт. 2025       | Первый релиз 229B MoE, RL-адаптированный кодинг           | Справочно / исторически                                  |
| M2.1     | дек. 2025       | **Чередующееся мышление** введено                         | Самая ранняя версия, которую стоит запускать для агентов |
| M2.5     | фев. 2026       | Саморазвивающееся RL-постобучение, более длинный контекст | Надёжная модель для кодинга, если ограничен диск         |
| **M2.7** | **9 апр. 2026** | **Улучшенный многоязычный кодинг, MTP, официальный FP8**  | **Вариант по умолчанию — используйте его**               |

Если вы начинаете с нуля, пропустите более ранние версии и сразу переходите к M2.7. Архитектурные отличия накапливаются, а эргономика FP8 заметно лучше.

***

## Устранение неполадок

| Проблема                               | Решение                                                                                                                                             |
| -------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` при загрузке FP8    | Нужно примерно 230 ГБ VRAM. Используйте 4× H100 80GB или 2× H200 141GB. Сначала снизьте `--max-model-len` до 32768.                                 |
| Медленная загрузка с HuggingFace       | `huggingface-cli download MiniMaxAI/MiniMax-M2.7 --local-dir ./weights --resume-download`. Ожидайте \~230 ГБ FP8 / \~460 ГБ BF16.                   |
| Вызовы инструментов тихо отбрасываются | Установите `--enable-auto-tool-choice --tool-call-parser hermes` в vLLM. M2.7 использует теги инструментов в стиле Hermes.                          |
| `<think>` блоки пустые или искажённые  | Сэмплирование должно быть `temperature=1.0, top_p=0.95, top_k=40`. Жадное декодирование ломает Interleaved Thinking.                                |
| Ошибки MTP / несоответствие формы      | Обновите vLLM до последней стабильной версии; поддержка MTP появилась поздно, и в старых сборках этих модулей нет.                                  |
| OOM при контексте 200K на H100         | Используйте `--enable-chunked-prefill` и начинайте с `--max-model-len 65536`. Полный контекст 200K реалистично требует H200.                        |
| Путаница с лицензией                   | По умолчанию = только некоммерческое использование. Напишите `api@minimax.io` с темой "M2.7 licensing" перед любым платным использованием продукта. |

***

## Следующие шаги

* **Аудио-«родственник»:** [MiniMax Speech](/guides/guides_v2-ru/audio-i-golos/minimax-speech.md) — тот же вендор, генерация аудио/голоса
* **Альтернатива с открытой лицензией:** [GLM-5.1](/guides/guides_v2-ru/yazykovye-modeli/glm-5-1.md) — 744B / 40B активных, лицензия MIT, топовый SWE-Bench Pro
* **Альтернатива с огромным контекстом:** [DeepSeek V4](/guides/guides_v2-ru/yazykovye-modeli/deepseek-v4.md) — контекст 1M, мультимодальная
* **Более дешёвый агентный вариант:** [GLM-4.7 Flash](/guides/guides_v2-ru/yazykovye-modeli/glm-47-flash.md) — помещается на одном H100, MIT
* **Маркетплейс Clore.ai:** [clore.ai/marketplace](https://clore.ai/marketplace) — H100/H200/A100 со спот-рынка

### Ссылки

* [MiniMax M2.7 на HuggingFace](https://huggingface.co/MiniMaxAI/MiniMax-M2.7)
* [ЛИЦЕНЗИЯ MiniMax M2.7](https://huggingface.co/MiniMaxAI/MiniMax-M2.7/blob/main/LICENSE) — прочитать перед коммерческим использованием
* [Платформа MiniMax](https://www.minimax.io)
* [Документация vLLM](https://docs.vllm.ai)
* [Репозиторий SGLang](https://github.com/sgl-project/sglang)
* [KTransformers](https://github.com/kvcache-ai/ktransformers)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/minimax-m27.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
