> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/mimo-v25-pro.md).

# MiMo-V2.5-Pro (Xiaomi 1T MoE)

{% hint style="info" %}
**Status (April 2026):** MiMo-V2.5-Pro wurde veröffentlicht am **27. April 2026** von Xiaomis KI-Abteilung als erstes Open-Weight-Modell in ihrer **Pro** -Stufe — das frühere MiMo-V2-Pro war nur per API verfügbar, ohne öffentliche Gewichte. Die Gewichte befinden sich unter [huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro) unter der **MIT-Lizenz**. Die Modellkarte wurde zuletzt am 28. April 2026 aktualisiert, daher kommen Bereitstellungstools, Community-Quants und Reproduktionen noch tagtäglich hinzu.
{% endhint %}

MiMo-V2.5-Pro ist ein **1,02-Billionen-Parameter-Mixture-of-Experts** Modell, das nur **\~42B Parameter pro Token**aktiviert. Das MiMo-Team — geleitet vom ehemaligen DeepSeek-Forscher **Luo Fuli** — entwarf es um zwei Ideen herum: ein **hybrides Aufmerksamkeitsschema** das Sliding Window Attention (SWA) und Global Attention (GA) im Verhältnis 6:1 kombiniert (\~7× KV-Cache-Reduktion mit einem 128-Token-Fenster), und **3 leichte Multi-Token-Prediction-(MTP)-Module** die ungefähr **3× Ausgabegeschwindigkeit** bei autoregressiven Workloads liefern. Die Architektur hat 70 Schichten (1 dicht + 69 MoE), eine Hidden Size von 6144 und wird nativ in **FP8 E4M3 Mixed Precision**.

Zwei Dinge sind für Clore.ai-Nutzer wichtig. Erstens ist dies die **erste MiMo-Pro-Veröffentlichung mit öffentlichen Gewichten**: frühere Pro-Varianten existierten nur als gehostete API und als heimlich getestetes Modell "Hunter Alpha" auf OpenRouter (Zeitlinie März 2026). Zweitens **MIT-Lizenz** entfernt kommerzielle Einschränkungen vollständig — feinabstimmen, weiterverteilen, als bezahlten Endpunkt betreiben, ohne Einschränkungen. Xiaomis Ankündigung zur Veröffentlichung behauptet, V2.5-Pro **übertrifft DeepSeek V4 bei agentischen Aufgaben**, aber dieser Benchmark stammt nur vom Anbieter — eine Reproduktion durch Dritte steht noch aus, und man sollte ihn ohne diesen Hinweis nicht extern zitieren.

### Wichtige Spezifikationen

| Eigenschaft                   | Wert                                                                       |
| ----------------------------- | -------------------------------------------------------------------------- |
| Gesamtparameter               | 1,02T (MoE)                                                                |
| Aktive Parameter              | \~42B pro Forward Pass                                                     |
| Kontextfenster                | 1.000.000 Tokens (1M)                                                      |
| Präzision                     | FP8 E4M3 Mixed (nativ)                                                     |
| Architektur                   | Hybrides SWA + GA (6:1), 70 Schichten (1 dicht + 69 MoE), Hidden Size 6144 |
| KV-Cache                      | Sliding Window 128, \~7× Reduktion gegenüber voller GA                     |
| Spekulatives Decoding         | 3 leichte MTP-Module, \~3× Ausgabegeschwindigkeit                          |
| Lizenz                        | MIT                                                                        |
| Veröffentlichungsdatum        | 27. April 2026                                                             |
| Organisation                  | Xiaomi MiMo-Team (XiaomiMiMo auf HuggingFace)                              |
| Primäre Tooling-Unterstützung | SGLang (First-Class), vLLM                                                 |

### Warum MiMo-V2.5-Pro?

* **Erstes offenes MiMo der Pro-Stufe** — der Vorgänger MiMo-V2-Pro war nur per API verfügbar, dies ist das erste Mal, dass die Pro-Gewichte öffentlich sind
* **1M-Token-Kontext** — verarbeitet ganze Codebasen, lange Agenten-Traces oder Multi-Dokument-RAG ohne Chunking
* **Hybride Aufmerksamkeit** — SWA + GA im Verhältnis 6:1 reduziert den KV-Cache um \~7× gegenüber reiner globaler Aufmerksamkeit; lange Kontexte bleiben handhabbar
* **Natives FP8** — keine nachträgliche Quantisierung, die Gewichte werden direkt vom Anbieter in FP8 E4M3 ausgeliefert
* **MTP-Spekulatives Decoding** — 3 eingebaute MTP-Module liefern sofort \~3× Decoding-Durchsatz
* **MIT-Lizenz** — keine kommerziellen Einschränkungen, keine Einschränkungen beim Verwendungszweck
* **42B aktiv** — man zahlt Inferenzkosten auf 42B-Dichte, trotz der Schlagzeile mit 1,02T
* **Abstammung** — der leitende Forscher Luo Fuli war zuvor bei DeepSeek, und die architektonischen Entscheidungen zeigen das

***

## Anforderungen

{% hint style="warning" %}
**Immer noch ein 1T-Modell.** "42B aktiv" klingt freundlich, aber die vollständigen 1,02T-Gewichte müssen im VRAM liegen (oder aggressiv ausgelagert werden). Native FP8-Gewichte benötigen **\~600GB+ VRAM** vor Aktivierungsspeicher und KV-Cache. Plane für 8×H200 oder größer für vollständigen FP8-Kontext.
{% endhint %}

| Komponente | Minimum (Quant + Offload, zukünftig)                     | Empfohlen (FP8)      | Volles FP8, 1M Kontext  |
| ---------- | -------------------------------------------------------- | -------------------- | ----------------------- |
| GPU-VRAM   | \~141GB (Q4 + RAM-Offload, sobald Quants verfügbar sind) | 8× H100 80GB (640GB) | 8× H200 141GB (1.128GB) |
| RAM        | 256GB                                                    | 512GB                | 512GB                   |
| Speicher   | 700GB NVMe                                               | 1,5TB NVMe           | 2TB NVMe                |
| CUDA       | 12.4+                                                    | 12.6+                | 12.6+                   |

**Clore.ai-Empfehlung:** Für volles FP8 mit Luft beim 1M-Kontext ist **8×H200** die naheliegende Wahl — siehe [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html). 8×H100 80GB kann den FP8-Checkpoint ebenfalls ausführen, aber du musst `--context-length` niedriger ansetzen (typischerweise 256K), um Platz für den KV-Cache zu lassen. Für Hardware der Blackwell-Klasse siehe [clore.ai/rent-b200.html](https://clore.ai/rent-b200.html).

***

## Option A — Ollama / GGUF (quantisiert, Community-Builds)

{% hint style="warning" %}
**Hinweis:** Stand 28. April 2026 (ein Tag nach Veröffentlichung) **Community-GGUF-Quants für MiMo-V2.5-Pro sind noch nicht veröffentlicht**. Erwartet werden Q4\_K\_M / Q5\_K\_M / Q6\_K-Builds innerhalb von 1–2 Wochen auf [huggingface.co/models?search=mimo-v2.5-pro+gguf](https://huggingface.co/models?search=mimo-v2.5-pro+gguf). Bis dahin ist FP8 über SGLang oder vLLM der unterstützte Weg.
{% endhint %}

```bash
# Sobald ein Q4_K_M-Build verfügbar ist
docker exec ollama ollama pull mimo-v2.5-pro:q4_K_M
docker exec ollama ollama run mimo-v2.5-pro:q4_K_M

# Oder direkt mit llama.cpp auf einer GGUF-Datei (falls veröffentlicht)
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/mimo-v2.5-pro-q4_k_m.gguf \
  --n-gpu-layers 99 --ctx-size 65536 \
  --port 8080 --host 0.0.0.0
```

***

## Option B — vLLM (Produktions-API, empfohlen)

vLLM unterstützt MiMo-V2.5-Pro über `--trust-remote-code` (die hybride Aufmerksamkeit + die MTP-Module werden als benutzerdefinierter Code im Repo mitgeliefert). Verwende die Sampling-Standardwerte des Anbieters: **temperature 1.0, top\_p 0.95**.

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model XiaomiMiMo/MiMo-V2.5-Pro
      --tensor-parallel-size 8
      --quantization fp8
      --max-model-len 262144
      --gpu-memory-utilization 0.90
      --trust-remote-code
      --served-model-name mimo-v2.5-pro
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Teste die API (vom Anbieter empfohlenes Sampling)
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5-pro",
    "messages": [
      {"role": "system", "content": "Du bist ein autonomer Coding-Agent."},
      {"role": "user", "content": "Gehe dieses 30K-Zeilen-Monorepo durch und schlage einen Migrationsplan von Express 4 zu Fastify 5 vor."}
    ],
    "max_tokens": 8192,
    "temperature": 1.0,
    "top_p": 0.95
  }'
```

{% hint style="info" %}
Auf 8×H100 80GB setze `--max-model-len` auf 262144 (256K), um Spielraum für Aktivierungen + KV-Cache zu lassen. Auf 8×H200 141GB kannst du komfortabel auf 524288 oder höher gehen; 1.048.576 (voller 1M) ist machbar, aber erwarte lange Prefill-Zeiten — vor dem Einsatz testen.
{% endhint %}

***

## Option C — SGLang (empfohlen für maximalen Durchsatz)

SGLang ist das **erstklassige Serving-Ziel** in der MiMo-V2.5-Pro-Modellkarte. Der Anbieter veröffentlicht den Startbefehl mit **`SGLANG_ENABLE_SPEC_V2=1`** um den neuen MTP-bewussten Pfad für spekulatives Decoding zu aktivieren, und genau dort materialisiert sich die \~3×-Decoding-Beschleunigung tatsächlich.

```bash
docker pull lmsysorg/sglang:latest

# Wortwörtlich aus der HF-Modellkarte
SGLANG_ENABLE_SPEC_V2=1 python3 -m sglang.launch_server \
    --model-path XiaomiMiMo/MiMo-V2.5-Pro \
    --trust-remote-code \
    --quantization fp8 \
    --context-length 1048576 \
    --host 0.0.0.0 --port 9001
```

Für ein Multi-GPU-TP-Setup auf 8×H200 füge hinzu `--tp-size 8` und `--mem-fraction-static 0.88`. Bestätige mit `nvidia-smi` dass alle 8 Karten belegt sind, bevor du echten Traffic sendest — der 1M-Kontext verzeiht es nicht, wenn ein Rank unterversorgt ist.

***

## Clore.ai-GPU-Empfehlungen

| Setup         | VRAM    | Erwartete Leistung                                         | Clore.ai-Kosten  |
| ------------- | ------- | ---------------------------------------------------------- | ---------------- |
| 4× H100 80GB  | 320GB   | FP8 mit starkem Offload, max. Kontext \~64K, \~10–15 Tok/s | \~25–35 $/Tag    |
| 8× H100 80GB  | 640GB   | FP8 voll, max. Kontext \~256K, \~30–45 Tok/s               | \~45–60 $/Tag    |
| 8× H200 141GB | 1.128GB | FP8 voll, max. Kontext 1M, \~60+ Tok/s mit MTP             | \~80–110 $/Tag   |
| 8× B200       | 1.536GB | FP8 voll, max. Kontext 1M, schnellste verfügbare           | Marktplatzpreise |

{% hint style="success" %}
**Bestes Preis-Leistungs-Verhältnis:** 8× H200 141GB auf dem FP8-Checkpoint mit `SGLANG_ENABLE_SPEC_V2=1`. Du erhältst das volle 1M-Kontextfenster, MTP-spekulatives Decoding und genug KV-Cache-Spielraum für echte Agenten-Loops. Siehe [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html) für die Live-Verfügbarkeit.
{% endhint %}

***

## Anwendungsfälle

* **Langfristige Agenten** — das MiMo-Team optimiert ausdrücklich für dauerhaftes Tool-Calling. Der 1M-Kontext plus MTP-Beschleunigung bedeutet Tausende von Tool-Schritten ohne Chunking-Umwege.
* **Analyse ganzer Codebasen** — lege ein 500K-Token-Monorepo in den Kontext für Refactoring-Planung, Abhängigkeitsprüfungen oder Migrationsdesign
* **RAG für lange Dokumente** — ganze Bücher, mehrjährige Kunden-Transkripte oder Chatverläufe über ein ganzes Jahr passen in einen einzigen Prompt
* **Programmierung** — vom Anbieter behauptete HumanEval+ 75,6 % und die agentische Ausrichtung machen es zu einem Kandidaten für autonome SWE-Workloads (kombiniert mit SWE-agent / OpenHands)
* **Forschungs-Scratchpad** — 1M Kontext toleriert die Art von Nutzung "ganzes Paper einfügen, bisherige Arbeiten einfügen, nach einer Synthese fragen", die kleinere Modelle abschneiden

***

## Benchmarks

{% hint style="warning" %}
**Vom Anbieter behauptet — bisher keine Reproduktion durch Dritte.** Alle Zahlen unten stammen aus Xiaomis Ankündigung vom 27. April 2026 und der HuggingFace-Modellkarte. Das Modell ist **zwei Tage alt** zum Zeitpunkt des Schreibens — unabhängige Reproduktionen auf agentischen und Long-Context-Benchmarks stehen noch aus. Insbesondere die Behauptung "übertrifft DeepSeek V4 bei agentischen Aufgaben" stammt aus Xiaomis eigener Darstellung; behandle sie als Marketing, bis sie reproduziert ist.
{% endhint %}

| Benchmark                           | MiMo-V2.5-Pro (Anbieter) | Hinweise                                                |
| ----------------------------------- | ------------------------ | ------------------------------------------------------- |
| GSM8K                               | **99.6%**                | Mathematische Textaufgaben                              |
| HumanEval+                          | 75.6%                    | Programmierung (erweitert)                              |
| MMLU                                | 89.4%                    | Allgemeinwissen                                         |
| GraphWalks (1M Kontext) BFS         | 0.37                     | Graphdurchlauf mit langem Kontext                       |
| GraphWalks (1M Kontext) Parents     | 0.62                     | Graphdurchlauf mit langem Kontext                       |
| Agentische Aufgaben vs. DeepSeek V4 | "übertrifft" (Anbieter)  | **Unverifiziert — Reproduktion durch Dritte steht aus** |

***

## Fehlerbehebung

| Problem                                      | Lösung                                                                                                                                                   |
| -------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` beim Laden                | Natives FP8 benötigt immer noch \~600GB+ VRAM. Verwende 8× H200 oder reduziere `--context-length` auf 65536 auf 8× H100.                                 |
| Langsamer HuggingFace-Download               | `huggingface-cli download XiaomiMiMo/MiMo-V2.5-Pro --local-dir ./weights --resume-download`. Erwarte \~600GB FP8.                                        |
| `--trust-remote-code` abgelehnt              | Hybride Aufmerksamkeit und MTP werden als benutzerdefinierter Code im Repo mitgeliefert. Der Flag ist **verpflichtend** für sowohl vLLM als auch SGLang. |
| MTP-Beschleunigung erscheint in SGLang nicht | Bestätige `SGLANG_ENABLE_SPEC_V2=1` ist in derselben Shell exportiert wie `python3 -m sglang.launch_server`. Der Standardpfad aktiviert MTP nicht.       |
| Reasoning-Trace flach / geringe Qualität     | Verwende `temperature=1.0` und `top_p=0.95`. Niedrigere Temperaturen verschlechtern das Reasoning-Verhalten von MiMo.                                    |
| 1M-Kontext verursacht OOM auf 8× H100        | 8× H100 80GB kann den KV-Cache für 1M Tokens nicht halten. Begrenze auf 256K oder wechsle zu 8× H200.                                                    |
| Prefill dauert Minuten                       | Bei 1M Kontext erwartet. Verwende `--enable-chunked-prefill` (vLLM) oder batche kürzere Anfragen für interaktive Workloads.                              |
| GGUF-/Ollama-Pull schlägt fehl               | Community-Quants sind Stand 28. April 2026 nicht veröffentlicht. Warte 1–2 Wochen oder verwende direkt FP8.                                              |

***

## Nächste Schritte

* **Vorgänger / Geschwistermodell:** [MiMo-V2-Flash](/guides/guides_v2-de/sprachmodelle/mimo-v2-flash.md) — 309B MoE, 15B aktiv, 32K Kontext, schneller, aber kleiner
* **Vom Anbieter behaupteter Rivale:** [DeepSeek V4](/guides/guides_v2-de/sprachmodelle/deepseek-v4.md) — 1M Kontext, multimodal, \~1T Parameter (das Modell, das Xiaomi nach eigener Aussage bei agentischen Aufgaben übertroffen hat)
* **Offene Codierungs-Konkurrenz:** [GLM-5.1](/guides/guides_v2-de/sprachmodelle/glm-5-1.md) — 744B MoE, 40B aktiv, MIT, derzeit #1 auf SWE-Bench Pro
* **Clore.ai H200-Mieten:** [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html) — beste Wahl für vollständiges FP8-1T-MoE bei 1M Kontext
* **Clore.ai-Marktplatz:** [clore.ai/marketplace](https://clore.ai/marketplace)

### Links

* [MiMo-V2.5-Pro auf HuggingFace](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro)
* [Xiaomi MiMo HuggingFace-Organisation](https://huggingface.co/XiaomiMiMo)
* [SGLang-Repo](https://github.com/sgl-project/sglang)
* [vLLM-Dokumentation](https://docs.vllm.ai)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/mimo-v25-pro.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.