> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/mimo-v25-pro.md).

# MiMo-V2.5-Pro (Xiaomi 1T MoE)

{% hint style="info" %}
**Statut (avril 2026) :** MiMo-V2.5-Pro a été publié le **27 avril 2026** par la division IA de Xiaomi comme le premier modèle à poids ouverts de leur **niveau Pro** — le précédent MiMo-V2-Pro n’était accessible qu’en API, sans poids publics. Les poids sont disponibles sur [huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro) sous la **licence MIT**. La fiche du modèle a été mise à jour pour la dernière fois le 28 avril 2026, donc les outils de déploiement, les quantifications communautaires et les reproductions arrivent encore jour après jour.
{% endhint %}

MiMo-V2.5-Pro est un **modèle Mixture-of-Experts de 1,02 trillion de paramètres** qui n’active que **environ 42 milliards de paramètres par jeton**. L’équipe MiMo — dirigée par l’ancienne chercheuse de DeepSeek **Luo Fuli** — l’a conçu autour de deux idées : une **architecture d’attention hybride** qui combine l’attention à fenêtre glissante (Sliding Window Attention, SWA) et l’attention globale (Global Attention, GA) dans un rapport de 6:1 (réduction d’environ 7× du cache KV avec une fenêtre de 128 jetons), et **3 modules légers de prédiction multi-jetons (Multi-Token Prediction, MTP)** qui offrent environ **3× de vitesse de sortie** sur les charges de travail autorégressives. L’architecture comporte 70 couches (1 dense + 69 MoE), une taille cachée de 6144, et est fournie nativement en **précision mixte FP8 E4M3**.

Deux choses comptent pour les utilisateurs de Clore.ai. Premièrement, il s’agit de la **première version MiMo Pro avec poids publics**: les variantes Pro précédentes n’existaient que comme API hébergée et comme modèle testé en toute discrétion « Hunter Alpha » sur OpenRouter (chronologie de mars 2026). Deuxièmement, la **licence MIT** supprime purement et simplement les restrictions commerciales — affinez-le, redistribuez-le, exécutez-le comme point de terminaison payant, sans réserve. L’annonce de lancement de Xiaomi affirme que V2.5-Pro **bat DeepSeek V4 sur les tâches agentiques**, mais ce benchmark n’est publié que par le fournisseur — aucune reproduction par un tiers n’est encore disponible, et vous ne devriez pas le citer à l’extérieur sans cette réserve.

### Spécifications clés

| Propriété                  | Valeur                                                                                   |
| -------------------------- | ---------------------------------------------------------------------------------------- |
| Nombre total de paramètres | 1,02T (MoE)                                                                              |
| Paramètres actifs          | \~42B par passe avant                                                                    |
| Fenêtre de contexte        | 1 000 000 jetons (1M)                                                                    |
| Précision                  | FP8 E4M3 mixte (natif)                                                                   |
| Architecture               | SWA + GA hybride (6:1), 70 couches (1 dense + 69 MoE), caché 6144                        |
| Cache KV                   | Fenêtre glissante 128, réduction d’environ 7× par rapport à l’attention globale complète |
| Décodage spéculatif        | 3 modules MTP légers, vitesse de sortie \~3×                                             |
| Licence                    | MIT                                                                                      |
| Date de publication        | 27 avril 2026                                                                            |
| Organisation               | Équipe Xiaomi MiMo (XiaomiMiMo sur HuggingFace)                                          |
| Outils principaux          | SGLang (prise en charge de premier ordre), vLLM                                          |

### Pourquoi MiMo-V2.5-Pro ?

* **Premier MiMo Pro à poids ouverts** — le MiMo-V2-Pro précédent n’était qu’en API, c’est la première fois que les poids Pro sont publics
* **contexte de 1M jetons** — gère des bases de code entières, de longues traces d’agents ou du RAG multi-document sans découpage
* **attention hybride** — SWA + GA en 6:1 réduit le cache KV d’environ 7× par rapport à l’attention globale pure ; les contextes longs restent gérables
* **FP8 natif** — aucune quantification a posteriori, les poids sont fournis en FP8 E4M3 directement par le fournisseur
* **décodage spéculatif MTP** — 3 modules MTP intégrés offrent d’emblée un débit de décodage \~3×
* **licence MIT** — aucune restriction commerciale, aucune limitation d’usage
* **42B actifs** — vous payez le coût d’inférence d’un modèle dense de 42B malgré le chiffre public de 1,02T
* **Lignée** — la chercheuse principale Luo Fuli travaillait auparavant chez DeepSeek, et les choix architecturaux le montrent

***

## Exigences

{% hint style="warning" %}
**Toujours un modèle de 1T.** « 42B actifs » sonne rassurant, mais les poids complets de 1,02T doivent tenir en VRAM (ou être fortement déchargés). Les poids FP8 natifs nécessitent **environ 600 Go+ de VRAM** avant la mémoire d’activation et le cache KV. Prévoyez 8×H200 ou plus pour le FP8 en contexte complet.
{% endhint %}

| Composant | Minimum (quantification + déchargement, futur)                         | Recommandé (FP8)       | FP8 complet, contexte 1M  |
| --------- | ---------------------------------------------------------------------- | ---------------------- | ------------------------- |
| VRAM GPU  | \~141 Go (Q4 + déchargement RAM, quand les quantifications arriveront) | 8× H100 80 Go (640 Go) | 8× H200 141 Go (1 128 Go) |
| RAM       | 256 Go                                                                 | 512 Go                 | 512 Go                    |
| Disque    | 700 Go NVMe                                                            | 1,5 To NVMe            | 2 To NVMe                 |
| CUDA      | 12.4+                                                                  | 12.6+                  | 12.6+                     |

**Choix Clore.ai :** Pour du FP8 complet avec de l’espace pour la fenêtre de contexte de 1M, **8×H200** est l’option naturelle — voir [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html). 8×H100 80 Go fait également tourner le checkpoint FP8, mais vous devrez limiter `--context-length` à une valeur plus basse (généralement 256K) pour laisser de la place au cache KV. Pour le matériel de classe Blackwell, voir [clore.ai/rent-b200.html](https://clore.ai/rent-b200.html).

***

## Option A — Ollama / GGUF (quantifié, builds communautaires)

{% hint style="warning" %}
**Attention :** Au 28 avril 2026 (un jour après la publication) **les quantifications GGUF communautaires pour MiMo-V2.5-Pro ne sont pas encore publiées**. Attendez-vous à voir apparaître des builds Q4\_K\_M / Q5\_K\_M / Q6\_K dans 1 à 2 semaines sur [huggingface.co/models?search=mimo-v2.5-pro+gguf](https://huggingface.co/models?search=mimo-v2.5-pro+gguf). En attendant, le FP8 via SGLang ou vLLM est la voie prise en charge.
{% endhint %}

```bash
# Une fois qu’un build Q4_K_M est disponible
docker exec ollama ollama pull mimo-v2.5-pro:q4_K_M
docker exec ollama ollama run mimo-v2.5-pro:q4_K_M

# Ou avec llama.cpp directement sur un fichier GGUF (une fois publié)
docker run --gpus all -it --rm -p 8080:8080 \\
  -v $(pwd)/models:/models \\
  ghcr.io/ggerganov/llama.cpp:server-cuda \\
  -m /models/mimo-v2.5-pro-q4_k_m.gguf \\
  --n-gpu-layers 99 --ctx-size 65536 \\
  --port 8080 --host 0.0.0.0
```

***

## Option B — vLLM (API de production, recommandé)

vLLM prend en charge MiMo-V2.5-Pro via `--trust-remote-code` (l’attention hybride + les modules MTP sont fournis comme code personnalisé dans le dépôt). Utilisez les valeurs de sampling du fournisseur : **température 1.0, top\_p 0.95**.

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model XiaomiMiMo/MiMo-V2.5-Pro
      --tensor-parallel-size 8
      --quantization fp8
      --max-model-len 262144
      --gpu-memory-utilization 0.90
      --trust-remote-code
      --served-model-name mimo-v2.5-pro
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Tester l’API (sampling recommandé par le fournisseur)
curl http://localhost:8000/v1/chat/completions \\
  -H "Content-Type: application/json" \\
  -d '{
    "model": "mimo-v2.5-pro",
    "messages": [
      {"role": "system", "content": "Vous êtes un agent de codage autonome."},
      {"role": "user", "content": "Parcourez ce monorepo de 30K lignes et proposez un plan de migration d’Express 4 vers Fastify 5."}
    ],
    "max_tokens": 8192,
    "temperature": 1.0,
    "top_p": 0.95
  }'
```

{% hint style="info" %}
Sur 8×H100 80 Go, limitez `--max-model-len` à 262144 (256K) pour laisser de la marge pour les activations + le cache KV. Sur 8×H200 141 Go, vous pouvez confortablement monter à 524288 ou plus ; 1 048 576 (1M complet) est possible, mais attendez-vous à de longs temps de préremplissage — testez avant de vous y fier.
{% endhint %}

***

## Option C — SGLang (recommandé pour un débit maximal)

SGLang est la **cible de service de premier ordre** dans la fiche du modèle MiMo-V2.5-Pro. Le fournisseur publie la commande de lancement avec **`SGLANG_ENABLE_SPEC_V2=1`** pour activer le nouveau chemin de décodage spéculatif conscient du MTP, c’est là que se matérialise réellement l’accélération d’environ 3× du décodage.

```bash
docker pull lmsysorg/sglang:latest

# Copié tel quel depuis la fiche du modèle HF
SGLANG_ENABLE_SPEC_V2=1 python3 -m sglang.launch_server \\
    --model-path XiaomiMiMo/MiMo-V2.5-Pro \\
    --trust-remote-code \\
    --quantization fp8 \\
    --context-length 1048576 \\
    --host 0.0.0.0 --port 9001
```

Pour une configuration TP multi-GPU sur 8×H200, ajoutez `--tp-size 8` et `--mem-fraction-static 0.88`. Vérifiez avec `nvidia-smi` que les 8 cartes sont toutes utilisées avant d’envoyer du trafic réel — le contexte de 1M ne pardonne pas si un rang manque de ressources.

***

## Recommandations GPU Clore.ai

| Configuration  | VRAM     | Performances attendues                                        | Coût Clore.ai               |
| -------------- | -------- | ------------------------------------------------------------- | --------------------------- |
| 4× H100 80 Go  | 320 Go   | FP8 avec fort déchargement, contexte max \~64K, \~10–15 tok/s | \~25–35 $/jour              |
| 8× H100 80 Go  | 640 Go   | FP8 complet, contexte max \~256K, \~30–45 tok/s               | \~45–60 $/jour              |
| 8× H200 141 Go | 1 128 Go | FP8 complet, contexte max 1M, \~60+ tok/s avec MTP            | \~80–110 $/jour             |
| 8× B200        | 1 536 Go | FP8 complet, contexte max 1M, le plus rapide disponible       | tarification du marketplace |

{% hint style="success" %}
**Meilleur rapport qualité-prix :** 8× H200 141 Go sur le checkpoint FP8 avec `SGLANG_ENABLE_SPEC_V2=1`. Vous obtenez la fenêtre de contexte complète de 1M, le décodage spéculatif MTP et suffisamment de marge de cache KV pour de vraies boucles d’agent. Voir [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html) pour la disponibilité en temps réel.
{% endhint %}

***

## Cas d’usage

* **Agents à long horizon** — l’équipe MiMo optimise explicitement pour un appel d’outils soutenu. Le contexte de 1M plus l’accélération MTP signifient des milliers de tours d’outils sans gymnastique de découpage.
* **Analyse de bases de code entières** — insérez un monorepo de 500K jetons dans le contexte pour la planification de refactorisation, les audits de dépendances ou la conception de migration
* **RAG sur longs documents** — des livres entiers, des transcriptions clients sur plusieurs années ou des historiques de chat d’un an tiennent dans un seul prompt
* **Codage** — le score HumanEval+ 75,6 % revendiqué par le fournisseur et la posture agentique en font un candidat pour des charges SWE autonomes (à associer à SWE-agent / OpenHands)
* **Brouillon de recherche** — le contexte de 1M tolère le type d’usage « coller tout l’article, coller les travaux antérieurs, demander une synthèse » que les petits modèles tronquent

***

## Benchmarks

{% hint style="warning" %}
**Revendiés par le fournisseur — aucune reproduction tierce à ce jour.** Tous les chiffres ci-dessous proviennent de l’annonce de Xiaomi du 27 avril 2026 et de la fiche du modèle HuggingFace. Le modèle n’a **que deux jours** au moment de la rédaction — les reproductions indépendantes sur les benchmarks agentiques et de long contexte sont encore en attente. L’affirmation « bat DeepSeek V4 sur les tâches agentiques » provient en particulier du texte de Xiaomi ; considérez-la comme du marketing tant qu’elle n’est pas reproduite.
{% endhint %}

| Benchmark                        | MiMo-V2.5-Pro (fournisseur) | Remarques                                        |
| -------------------------------- | --------------------------- | ------------------------------------------------ |
| GSM8K                            | **99.6%**                   | Problèmes de mots en mathématiques               |
| HumanEval+                       | 75.6%                       | Codage (étendu)                                  |
| MMLU                             | 89.4%                       | Connaissances générales                          |
| GraphWalks (1M ctx) BFS          | 0.37                        | Parcours de graphe en contexte long              |
| GraphWalks (1M ctx) Parents      | 0.62                        | Parcours de graphe en contexte long              |
| Tâches agentiques vs DeepSeek V4 | « surpasse » (fournisseur)  | **Non vérifié — reproduction tierce en attente** |

***

## Dépannage

| Problème                                      | Solution                                                                                                                                           |
| --------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` au chargement              | Le FP8 natif nécessite toujours environ 600 Go+ de VRAM. Utilisez 8× H200 ou réduisez `--context-length` à 65536 sur 8× H100.                      |
| Téléchargement HuggingFace lent               | `huggingface-cli download XiaomiMiMo/MiMo-V2.5-Pro --local-dir ./weights --resume-download`. Attendez-vous à environ 600 Go en FP8.                |
| `--trust-remote-code` refusé                  | L’attention hybride et le MTP sont fournis comme code personnalisé dans le dépôt. Le flag est **obligatoire** pour vLLM et SGLang.                 |
| L’accélération MTP n’apparaît pas dans SGLang | Vérifiez `SGLANG_ENABLE_SPEC_V2=1` est exporté dans le même shell que `python3 -m sglang.launch_server`. Le chemin par défaut n’active pas le MTP. |
| Trace de raisonnement plate / faible qualité  | Utilisez `temperature=1.0` et `top_p=0.95`. Des températures plus basses dégradent le comportement de raisonnement de MiMo.                        |
| OOM de contexte 1M sur 8× H100                | 8× H100 80 Go ne peuvent pas contenir le cache KV pour 1M jetons. Limitez-vous à 256K ou passez à 8× H200.                                         |
| Le préremplissage prend des minutes           | Attendu à 1M de contexte. Utilisez `--enable-chunked-prefill` (vLLM) ou regroupez des requêtes plus courtes pour les charges interactives.         |
| L’extraction GGUF / Ollama échoue             | Les quantifications communautaires ne sont pas publiées au 28 avril 2026. Attendez 1 à 2 semaines ou utilisez directement le FP8.                  |

***

## Étapes suivantes

* **Prédécesseur / modèle sœur :** [MiMo-V2-Flash](/guides/guides_v2-fr/modeles-de-langage/mimo-v2-flash.md) — 309B MoE, 15B actifs, 32K ctx, plus rapide mais plus petit
* **Concurrent revendiqué par le fournisseur :** [DeepSeek V4](/guides/guides_v2-fr/modeles-de-langage/deepseek-v4.md) — 1M ctx, multimodal, \~1T paramètres (le modèle que Xiaomi dit avoir surpassé sur les tâches agentiques)
* **Concurrent à poids ouverts pour le code :** [GLM-5.1](/guides/guides_v2-fr/modeles-de-langage/glm-5-1.md) — 744B MoE, 40B actifs, MIT, actuellement n°1 sur SWE-Bench Pro
* **Locations H200 Clore.ai :** [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html) — le meilleur choix pour le MoE 1T FP8 complet avec contexte 1M
* **Marketplace Clore.ai :** [clore.ai/marketplace](https://clore.ai/marketplace)

### Liens

* [MiMo-V2.5-Pro sur HuggingFace](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro)
* [Organisation HuggingFace Xiaomi MiMo](https://huggingface.co/XiaomiMiMo)
* [Dépôt SGLang](https://github.com/sgl-project/sglang)
* [Documentation vLLM](https://docs.vllm.ai)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/mimo-v25-pro.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.