> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/language-models/mimo-v25-pro.md).

# MiMo-V2.5-Pro (Xiaomi 1T MoE)

{% hint style="info" %}
**स्थिति (अप्रैल 2026):** MiMo-V2.5-Pro जारी किया गया था **27 अप्रैल, 2026** को Xiaomi के AI डिवीजन द्वारा उनके **Pro** टियर में पहले ओपन-वेट मॉडल के रूप में। — पिछला MiMo-V2-Pro केवल API-आधारित था, उसके सार्वजनिक वेट्स नहीं थे। वेट्स यहाँ उपलब्ध हैं [huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro) के अंतर्गत **MIT लाइसेंस**. मॉडल कार्ड को अंतिम बार 28 अप्रैल, 2026 को अपडेट किया गया था, इसलिए डिप्लॉयमेंट टूलिंग, कम्युनिटी क्वांट्स, और रिप्रोडक्शन अभी भी दिन-प्रतिदिन सामने आ रहे हैं।
{% endhint %}

MiMo-V2.5-Pro एक **1.02-ट्रिलियन पैरामीटर वाला Mixture-of-Experts** मॉडल है जो केवल **\~42B पैरामीटर प्रति टोकन**को सक्रिय करता है। MiMo टीम — जिसका नेतृत्व पूर्व DeepSeek शोधकर्ता **Luo Fuli** ने किया — ने इसे दो विचारों के आसपास डिज़ाइन किया: एक **हाइब्रिड अटेंशन स्कीम** जो Sliding Window Attention (SWA) और Global Attention (GA) को 6:1 अनुपात (\~7× KV-कैश कमी 128-टोकन विंडो के साथ) में मिलाती है, और **3 हल्के Multi-Token Prediction (MTP) मॉड्यूल** जो लगभग **3× आउटपुट गति** autoregressive वर्कलोड्स पर देते हैं। आर्किटेक्चर में 70 लेयर हैं (1 dense + 69 MoE), hidden size 6144 है, और यह स्वाभाविक रूप से **FP8 E4M3 mixed precision**.

Clore.ai उपयोगकर्ताओं के लिए दो बातें महत्वपूर्ण हैं। पहली, यह **सार्वजनिक वेट्स के साथ पहला MiMo Pro रिलीज़**है: पिछले Pro वेरिएंट केवल एक hosted API के रूप में और OpenRouter पर stealth-tested "Hunter Alpha" मॉडल (मार्च 2026 टाइमलाइन) के रूप में मौजूद थे। दूसरी, **MIT लाइसेंस** व्यावसायिक प्रतिबंधों को पूरी तरह हटाता है — fine-tune करें, पुनर्वितरित करें, इसे paid endpoint के रूप में चलाएँ, कोई शर्त नहीं। Xiaomi की लॉन्च घोषणा में दावा है कि V2.5-Pro **agentic कार्यों पर DeepSeek V4 से बेहतर है**, लेकिन वह benchmark केवल विक्रेता द्वारा प्रकाशित है — तीसरे पक्ष की पुनरुत्पत्ति अभी तक उपलब्ध नहीं हुई है, और इस चेतावनी के बिना आपको इसे बाहर उद्धृत नहीं करना चाहिए।

### मुख्य विनिर्देश

| विशेषता                | मान                                                              |
| ---------------------- | ---------------------------------------------------------------- |
| कुल पैरामीटर           | 1.02T (MoE)                                                      |
| सक्रिय पैरामीटर        | \~42B प्रति फॉरवर्ड पास                                          |
| कॉन्टेक्स्ट विंडो      | 1,000,000 टोकन (1M)                                              |
| प्रिसीजन               | FP8 E4M3 मिश्रित (नेटिव)                                         |
| आर्किटेक्चर            | हाइब्रिड SWA + GA (6:1), 70 लेयर (1 dense + 69 MoE), hidden 6144 |
| KV-कैश                 | 128 की स्लाइडिंग विंडो, पूर्ण GA की तुलना में \~7× कमी           |
| स्पेक्युलेटिव डिकोडिंग | 3 हल्के MTP मॉड्यूल, \~3× आउटपुट गति                             |
| लाइसेंस                | MIT                                                              |
| रिलीज़ तिथि            | 27 अप्रैल, 2026                                                  |
| संगठन                  | Xiaomi MiMo टीम (HuggingFace पर XiaomiMiMo)                      |
| प्राथमिक टूलिंग        | SGLang (प्रथम-श्रेणी), vLLM                                      |

### MiMo-V2.5-Pro क्यों?

* **पहला ओपन Pro-टियर MiMo** — पूर्ववर्ती MiMo-V2-Pro केवल API-आधारित था, यह पहली बार है जब Pro वेट्स सार्वजनिक हैं
* **1M-टोकन कॉन्टेक्स्ट** — बिना chunking के पूरे codebases, लंबे agent traces, या multi-document RAG को संभालता है
* **हाइब्रिड अटेंशन** — SWA + GA का 6:1 अनुपात KV-कैश को शुद्ध global attention की तुलना में \~7× घटाता है; लंबे कॉन्टेक्स्ट संभालने योग्य रहते हैं
* **नेटिव FP8** — बाद की quantization नहीं, वेट्स सीधे विक्रेता से FP8 E4M3 में आते हैं
* **MTP स्पेक्युलेटिव डिकोडिंग** — 3 अंतर्निहित MTP मॉड्यूल आउट-ऑफ-द-बॉक्स \~3× डिकोड थ्रूपुट देते हैं
* **MIT लाइसेंस** — कोई व्यावसायिक प्रतिबंध नहीं, उपयोग-क्षेत्र सीमाएँ नहीं
* **42B सक्रिय** — 1.02T headline संख्या के बावजूद आप 42B-dense inference लागत चुकाते हैं
* **वंशावली** — प्रमुख शोधकर्ता Luo Fuli पहले DeepSeek में थे, और वास्तुशिल्प चुनाव यह दर्शाते हैं

***

## आवश्यकताएँ

{% hint style="warning" %}
**अब भी एक 1T मॉडल है।** "42B active" दोस्ताना लगता है, लेकिन पूरे 1.02T वेट्स को VRAM (या आक्रामक offload) में होना चाहिए। नेटिव FP8 वेट्स को **\~600GB+ VRAM** सक्रियण मेमोरी और KV कैश से पहले चाहिए। पूर्ण-कॉन्टेक्स्ट FP8 के लिए 8×H200 या उससे बड़े पर योजना बनाएं।
{% endhint %}

| घटक      | न्यूनतम (Quant + offload, भविष्य)                | अनुशंसित (FP8)       | पूर्ण FP8, 1M ctx       |
| -------- | ------------------------------------------------ | -------------------- | ----------------------- |
| GPU VRAM | \~141GB (Q4 + RAM offload, जब quants उपलब्ध हों) | 8× H100 80GB (640GB) | 8× H200 141GB (1,128GB) |
| RAM      | 256GB                                            | 512GB                | 512GB                   |
| डिस्क    | 700GB NVMe                                       | 1.5TB NVMe           | 2TB NVMe                |
| CUDA     | 12.4+                                            | 12.6+                | 12.6+                   |

**Clore.ai की पसंद:** 1M कॉन्टेक्स्ट पर पर्याप्त जगह के साथ पूर्ण FP8 के लिए, **8×H200** सबसे उपयुक्त है — देखें [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html). 8×H100 80GB भी FP8 checkpoint चला सकता है, लेकिन KV कैश के लिए जगह छोड़ने हेतु आप `--context-length` को कम (आमतौर पर 256K) करेंगे। Blackwell-श्रेणी के हार्डवेयर के लिए देखें [clore.ai/rent-b200.html](https://clore.ai/rent-b200.html).

***

## विकल्प A — Ollama / GGUF (Quantized, community builds)

{% hint style="warning" %}
**ध्यान दें:** 28 अप्रैल, 2026 तक (रिलीज़ के एक दिन बाद) **MiMo-V2.5-Pro के लिए community GGUF quants अभी प्रकाशित नहीं हुए हैं**. अपेक्षा करें कि Q4\_K\_M / Q5\_K\_M / Q6\_K builds 1–2 सप्ताह में यहाँ दिखाई दें [huggingface.co/models?search=mimo-v2.5-pro+gguf](https://huggingface.co/models?search=mimo-v2.5-pro+gguf). तब तक SGLang या vLLM के माध्यम से FP8 ही समर्थित मार्ग है।
{% endhint %}

```bash
# जब Q4_K_M build उपलब्ध हो
docker exec ollama ollama pull mimo-v2.5-pro:q4_K_M
docker exec ollama ollama run mimo-v2.5-pro:q4_K_M

# या GGUF फ़ाइल पर सीधे llama.cpp के साथ (जब प्रकाशित हो)
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/mimo-v2.5-pro-q4_k_m.gguf \
  --n-gpu-layers 99 --ctx-size 65536 \
  --port 8080 --host 0.0.0.0
```

***

## विकल्प B — vLLM (प्रोडक्शन API, अनुशंसित)

vLLM MiMo-V2.5-Pro को `--trust-remote-code` के माध्यम से समर्थन करता है (हाइब्रिड अटेंशन + MTP मॉड्यूल रिपॉज़िटरी में कस्टम कोड के रूप में आते हैं)। विक्रेता के sampling defaults का उपयोग करें: **temperature 1.0, top\_p 0.95**.

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model XiaomiMiMo/MiMo-V2.5-Pro
      --tensor-parallel-size 8
      --quantization fp8
      --max-model-len 262144
      --gpu-memory-utilization 0.90
      --trust-remote-code
      --served-model-name mimo-v2.5-pro
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# API का परीक्षण करें (विक्रेता-अनुशंसित sampling)
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5-pro",
    "messages": [
      {"role": "system", "content": "आप एक स्वायत्त कोडिंग एजेंट हैं।"},
      {"role": "user", "content": "इस 30K-लाइन monorepo को देखें और Express 4 से Fastify 5 पर migration plan प्रस्तावित करें।"}
    ],
    "max_tokens": 8192,
    "temperature": 1.0,
    "top_p": 0.95
  }'
```

{% hint style="info" %}
8×H100 80GB पर, `--max-model-len` को 262144 (256K) तक सीमित करें ताकि activations + KV cache के लिए जगह बची रहे। 8×H200 141GB पर आप आराम से 524288 या उससे अधिक तक जा सकते हैं; 1,048,576 (पूर्ण 1M) संभव है, लेकिन लंबे prefill समय की अपेक्षा करें — इस पर निर्भर रहने से पहले परीक्षण करें।
{% endhint %}

***

## विकल्प C — SGLang (अधिकतम थ्रूपुट के लिए अनुशंसित)

SGLang **प्रथम-श्रेणी serving target** है MiMo-V2.5-Pro मॉडल कार्ड में। विक्रेता लॉन्च कमांड प्रकाशित करता है **`SGLANG_ENABLE_SPEC_V2=1`** के साथ नए MTP-aware speculative decoding path को सक्रिय करने के लिए, और वास्तव में यहीं \~3× decode speedup मिलता है।

```bash
docker pull lmsysorg/sglang:latest

# HF मॉडल कार्ड से ज्यों का त्यों
SGLANG_ENABLE_SPEC_V2=1 python3 -m sglang.launch_server \
    --model-path XiaomiMiMo/MiMo-V2.5-Pro \
    --trust-remote-code \
    --quantization fp8 \
    --context-length 1048576 \
    --host 0.0.0.0 --port 9001
```

8×H200 पर multi-GPU TP सेटअप के लिए, जोड़ें `--tp-size 8` और `--mem-fraction-static 0.88`. वास्तविक ट्रैफिक भेजने से पहले `nvidia-smi` से पुष्टि करें कि सभी 8 कार्ड भरे हुए हैं — 1M कॉन्टेक्स्ट तब unforgiving होता है जब एक rank भूखा रह जाता है।

***

## Clore.ai GPU अनुशंसाएँ

| सेटअप         | VRAM    | अपेक्षित प्रदर्शन                                        | Clore.ai लागत               |
| ------------- | ------- | -------------------------------------------------------- | --------------------------- |
| 4× H100 80GB  | 320GB   | भारी offload के साथ FP8, अधिकतम ctx \~64K, \~10–15 tok/s | \~$25–35/दिन                |
| 8× H100 80GB  | 640GB   | पूर्ण FP8, अधिकतम ctx \~256K, \~30–45 tok/s              | \~$45–60/दिन                |
| 8× H200 141GB | 1,128GB | पूर्ण FP8, अधिकतम ctx 1M, MTP के साथ \~60+ tok/s         | \~$80–110/दिन               |
| 8× B200       | 1,536GB | पूर्ण FP8, अधिकतम ctx 1M, सबसे तेज़ उपलब्ध               | मार्केटप्लेस मूल्य निर्धारण |

{% hint style="success" %}
**सर्वश्रेष्ठ मूल्य:** FP8 checkpoint पर 8× H200 141GB `SGLANG_ENABLE_SPEC_V2=1`के साथ। आपको पूर्ण 1M कॉन्टेक्स्ट विंडो, MTP speculative decoding, और वास्तविक agent loops के लिए पर्याप्त KV-cache headroom मिलता है। देखें [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html) लाइव उपलब्धता के लिए।
{% endhint %}

***

## उपयोग के मामले

* **लंबी-क्षितिज एजेंट** — MiMo टीम स्पष्ट रूप से सतत tool-calling के लिए ट्यून करती है। 1M कॉन्टेक्स्ट + MTP speedup का मतलब chunking gymnastics के बिना हज़ारों tool turns है।
* **पूरे codebase का विश्लेषण** — refactor planning, dependency audits, या migration design के लिए 500K-टोकन monorepo को कॉन्टेक्स्ट में डालें
* **लंबे-document RAG** — पूरी किताबें, कई-वर्षीय customer transcripts, या वर्ष-भर की chat histories एक ही prompt में समा जाती हैं
* **कोडिंग** — विक्रेता-claimed HumanEval+ 75.6% और agentic posture इसे autonomous SWE workloads के लिए उम्मीदवार बनाते हैं (SWE-agent / OpenHands के साथ जोड़ें)
* **रिसर्च scratchpad** — 1M कॉन्टेक्स्ट उस तरह के "पूरे पेपर को पेस्ट करो, prior work पेस्ट करो, synthesis माँगो" उपयोग को सहन करता है जिसे छोटे मॉडल काट देते हैं

***

## बेंचमार्क

{% hint style="warning" %}
**विक्रेता द्वारा दावा किया गया — अभी तक कोई तीसरे पक्ष की पुनरुत्पत्ति नहीं।** नीचे दिए गए सभी आंकड़े Xiaomi की 27 अप्रैल, 2026 की घोषणा और HuggingFace मॉडल कार्ड से लिए गए हैं। मॉडल **दो दिन पुराना** लेखन के समय है — agentic और long-context बेंचमार्क पर स्वतंत्र पुनरुत्पत्तियाँ अभी लंबित हैं। विशेष रूप से "agentic tasks पर DeepSeek V4 से बेहतर" का दावा Xiaomi की अपनी लिखावट से है; जब तक पुनरुत्पादित न हो, इसे marketing की तरह मानें।
{% endhint %}

| बेंचमार्क                            | MiMo-V2.5-Pro (विक्रेता)    | नोट्स                                            |
| ------------------------------------ | --------------------------- | ------------------------------------------------ |
| GSM8K                                | **99.6%**                   | गणित शब्द समस्याएँ                               |
| HumanEval+                           | 75.6%                       | कोडिंग (विस्तारित)                               |
| MMLU                                 | 89.4%                       | सामान्य ज्ञान                                    |
| GraphWalks (1M ctx) BFS              | 0.37                        | लंबे-कॉन्टेक्स्ट ग्राफ traversal                 |
| GraphWalks (1M ctx) Parents          | 0.62                        | लंबे-कॉन्टेक्स्ट ग्राफ traversal                 |
| DeepSeek V4 के विरुद्ध agentic कार्य | "बेहतर प्रदर्शन" (विक्रेता) | **असत्यापित — तीसरे पक्ष की पुनरुत्पत्ति लंबित** |

***

## समस्या-निवारण

| समस्या                                   | समाधान                                                                                                                                                                 |
| ---------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` लोड पर                | नेटिव FP8 को अभी भी \~600GB+ VRAM चाहिए। 8× H200 का उपयोग करें या `--context-length` को 8× H100 पर 65536 तक घटाएँ।                                                     |
| धीमी HuggingFace डाउनलोड                 | `huggingface-cli download XiaomiMiMo/MiMo-V2.5-Pro --local-dir ./weights --resume-download`. \~600GB FP8 की अपेक्षा करें।                                              |
| `--trust-remote-code` अस्वीकृत           | हाइब्रिड अटेंशन और MTP रिपॉज़िटरी में कस्टम कोड के रूप में आते हैं। फ्लैग **अनिवार्य** है vLLM और SGLang दोनों के लिए।                                                 |
| SGLang में MTP speedup दिखाई नहीं दे रहा | पुष्टि करें `SGLANG_ENABLE_SPEC_V2=1` कि यह उसी shell में export किया गया है जिसमें `python3 -m sglang.launch_server`चल रहा है। डिफ़ॉल्ट path MTP को सक्रिय नहीं करता। |
| reasoning trace सपाट / कम गुणवत्ता वाला  | उपयोग करें `temperature=1.0` और `top_p=0.95`. कम तापमान MiMo के reasoning व्यवहार को खराब करते हैं।                                                                    |
| 8× H100 पर 1M context OOMs               | 8× H100 80GB 1M टोकन के लिए KV cache नहीं संभाल सकता। 256K पर सीमित करें या 8× H200 पर जाएँ।                                                                           |
| Prefill में मिनट लगते हैं                | 1M कॉन्टेक्स्ट पर अपेक्षित है। उपयोग करें `--enable-chunked-prefill` (vLLM) या इंटरैक्टिव वर्कलोड्स के लिए छोटी requests को batch करें।                                |
| GGUF / Ollama pull विफल                  | 28 अप्रैल, 2026 तक community quants प्रकाशित नहीं हैं। 1–2 सप्ताह प्रतीक्षा करें या सीधे FP8 का उपयोग करें।                                                            |

***

## अगले कदम

* **पूर्ववर्ती / sibling:** [MiMo-V2-Flash](/guides/guides_v2-hi/language-models/mimo-v2-flash.md) — 309B MoE, 15B active, 32K ctx, तेज़ लेकिन छोटा
* **विक्रेता का दावा किया गया प्रतिद्वंद्वी:** [DeepSeek V4](/guides/guides_v2-hi/language-models/deepseek-v4.md) — 1M ctx, multimodal, \~1T params (वह मॉडल जिसे Xiaomi कहता है कि उन्होंने agentic tasks पर हराया)
* **ओपन-वेट कोडिंग प्रतिद्वंद्वी:** [GLM-5.1](/guides/guides_v2-hi/language-models/glm-5-1.md) — 744B MoE, 40B active, MIT, वर्तमान में SWE-Bench Pro पर #1
* **Clore.ai H200 rentals:** [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html) — 1M कॉन्टेक्स्ट पर पूर्ण FP8 1T MoE के लिए सबसे उपयुक्त
* **Clore.ai marketplace:** [clore.ai/marketplace](https://clore.ai/marketplace)

### लिंक्स

* [HuggingFace पर MiMo-V2.5-Pro](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro)
* [Xiaomi MiMo HuggingFace org](https://huggingface.co/XiaomiMiMo)
* [SGLang repo](https://github.com/sgl-project/sglang)
* [vLLM docs](https://docs.vllm.ai)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/language-models/mimo-v25-pro.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.