> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/language-models/mimo-v2-flash.md).

# MiMo-V2-Flash

> MiMo-V2-Flash एक है **309-अरब पैरामीटर मिश्रण-ऑफ-एक्सपर्ट्स** भाषा मॉडल जो प्रति टोकन 15B पैरामीटर सक्रिय करता है। उन्नत स्वरुपिक उपनकला (speculative decoding) (EAGLE/MTP) के साथ निर्मित, यह प्रदान करता है **150+ टोकन/सेकंड** 8×H100 पर जबकि सीमा-स्तरीय प्रदर्शन बनाए रखता है। जारी किया गया है **MIT लाइसेंस के अंतर्गत**, यह कुशल बड़े पैमाने पर अनुमान (inference) का सबसे आगे का प्रतिनिधित्व करता है।

## एक नज़र में

* **मॉडल आकार**: 309B कुल / 15B सक्रिय पैरामीटर (MoE)
* **लाइसेंस**: MIT (पूर्ण रूप से वाणिज्यिक)
* **संदर्भ**: 32K टोकन
* **प्रदर्शन**: तार्किक बेसलाइन पर सर्वोत्कृष्ट (state-of-the-art) प्रदर्शन
* **VRAM**: \~320GB FP16 (न्यूनतम 4×A100 80GB)
* **स्पीड**: अनुमानात्मक (speculative) डिकोडिंग के साथ 8×H100 पर 150+ टोक/सेक

## क्यों MiMo-V2-Flash?

**उल्लेखनीय गति**: EAGLE (Extrapolation Algorithm for Greater Language model Efficiency) और MTP (Multi-Token Prediction) के माध्यम से MiMo-V2-Flash अभूतपूर्व अनुमान गति प्राप्त करता है। जहां पारंपरिक मॉडल एक समय में एक टोकन जनरेट करते हैं, MiMo-V2 कई टोकन समानांतर में अनुमान और सत्यापित करता है।

**उत्पादन-तैयार पैमाना**: 309B पैरामीटर पर, MiMo-V2-Flash सबसे बड़े अग्रिम मॉडल्स के साथ प्रतिस्पर्धा करता है जबकि वास्तविक हार्डवेयर कॉन्फ़िगरेशन पर तैनात रहने योग्य भी है। 15B सक्रिय पैरामीटर विशाल पैरामीटर गिनती के बावजूद कुशल अनुमान सुनिश्चित करते हैं।

**उन्नत वास्तुकला**: मानक MoE से परे, MiMo-V2-Flash मॉडल आर्किटेक्चर में अनुमानात्मक डिकोडिंग को मूल रूप से शामिल करता है। यह पोस्ट-प्रशिक्षण अनुकूलन नहीं है — यह नींव में निर्मित है, जो गारंटीकृत स्पीडअप सक्षम बनाता है।

**उद्यम-गुणवत्ता**: उपयोग प्रतिबंधों के बिना MIT लाइसेंसिंग। बड़े पैमाने पर परिनियोजित करें, फाइन-ट्यून करें, या वाणिज्यिक उत्पादों में बिना लाइसेंसिंग चिंताओं के एकीकृत करें।

## GPU सिफारिशें

| सेटअप           | VRAM  | प्रदर्शन         | दैनिक लागत\* |
| --------------- | ----- | ---------------- | ------------ |
| **4×A100 80GB** | 320GB | \~80 टोक/सेक     | \~$16.00     |
| **8×A100 40GB** | 320GB | \~70 टोक/सेक     | \~$28.00     |
| **2×H100**      | 160GB | \~90 टोक/सेक     | \~$12.00     |
| **8×H100**      | 640GB | **150+ टोक/सेक** | \~$48.00     |
| 4×H200          | 564GB | \~120 टोक/सेक    | \~$32.00     |

**श्रेष्ठ मूल्य**: 4×A100 80GB प्रति डॉलर उत्कृष्ट प्रदर्शन प्रदान करता है। **अधिकतम प्रदर्शन**: 8×H100 अनुमानात्मक डिकोडिंग की पूर्ण क्षमता खोलता है।

\*अनुमानित Clore.ai मार्केटप्लेस कीमतें

## SGLang के साथ तैनात करें (अनुशंसित)

SGLang MiMo-V2-Flash की अनुमानात्मक डिकोडिंग सुविधाओं के लिए सर्वोत्तम समर्थन प्रदान करता है:

### SGLang इंस्टॉल करें

```bash
pip install "sglang[all]>=0.3.0"
# या नवीनतम
pip install git+https://github.com/sgl-project/sglang.git
```

### MTP के साथ मल्टी-GPU सेटअप

```bash
python -m sglang.launch_server \
  --model-path mimo-ai/MiMo-V2-Flash \
  --tp-size 8 \
  --enable-mtp \
  --mtp-max-draft-tokens 8 \
  --mtp-acceptance-rate 0.8 \
  --mem-fraction-static 0.85 \
  --dtype float16 \
  --context-length 32768 \
  --served-model-name mimo-v2-flash
```

### OpenAI API के साथ क्वेरी करें

```python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:30000/v1", 
    api_key="EMPTY"
)

response = client.chat.completions.create(
    model="mimo-v2-flash",
    messages=[
        {"role": "system", "content": "You are an expert AI researcher."},
        {"role": "user", "content": "Explain the EAGLE speculative decoding algorithm and why it enables faster inference"}
    ],
    max_tokens=1024,
    temperature=0.7,
    stream=True  # सबसे बेहतर लेटेंसी के लिए अनुशंसित
)

for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end='', flush=True)
```

## vLLM के साथ तैनात करें

vLLM भी अनुमानात्मक डिकोडिंग के साथ MiMo-V2-Flash का समर्थन करता है:

```bash
pip install vllm>=0.6.0

vllm serve mimo-ai/MiMo-V2-Flash \
  --tensor-parallel-size 8 \
  --speculative-model mimo-ai/MiMo-V2-Flash-Draft \
  --speculative-max-model-len 32768 \
  --speculative-draft-tensor-parallel-size 2 \
  --use-v2-block-manager \
  --dtype float16 \
  --served-model-name mimo-v2-flash \
  --trust-remote-code
```

## डॉकर टेम्पलेट

```dockerfile
FROM nvidia/cuda:12.1-devel-ubuntu22.04

# निर्भरताएँ इंस्टॉल करें
RUN apt-get update && \
    apt-get install -y python3.10 python3-pip git && \
    rm -rf /var/lib/apt/lists/*

# MTP समर्थन के साथ SGLang इंस्टॉल करें
RUN pip install "sglang[all]>=0.3.0" transformers

# पर्यावरण वेरिएबल सेट करें
ENV PYTHONUNBUFFERED=1
ENV CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7

# मॉडल पूर्व-डाउनलोड (विकल्पिक, स्टार्टअप समय बचाता है)
# RUN python3 -c "from transformers import AutoModel; AutoModel.from_pretrained('mimo-ai/MiMo-V2-Flash', trust_remote_code=True)"

EXPOSE 30000

CMD ["python", "-m", "sglang.launch_server", \
     "--model-path", "mimo-ai/MiMo-V2-Flash", \
     "--host", "0.0.0.0", \
     "--port", "30000", \
     "--tp-size", "8", \
     "--enable-mtp", \
     "--mtp-max-draft-tokens", "8", \
     "--dtype", "float16"]
```

सभी GPUs के साथ चलाएँ:

```bash
docker build -t mimo-v2-flash .
docker run --gpus all -p 30000:30000 \
  --shm-size=64g \
  --ulimit memlock=-1 \
  --ulimit stack=67108864 \
  mimo-v2-flash
```

## उन्नत कॉन्फ़िगरेशन

### अनुमानात्मक डिकोडिंग का अनुकूलन

अपने वर्कलोड के आधार पर अनुमानात्मक पैरामीटर फ़ाइन-ट्यून करें:

```bash
# कोड जनरेशन के लिए (उच्च स्वीकृति दर)
python -m sglang.launch_server \
  --model-path mimo-ai/MiMo-V2-Flash \
  --tp-size 8 \
  --enable-mtp \
  --mtp-max-draft-tokens 12 \
  --mtp-acceptance-rate 0.9 \
  --temperature 0.1

# रचनात्मक लेखन के लिए (निम्न स्वीकृति दर)
python -m sglang.launch_server \
  --model-path mimo-ai/MiMo-V2-Flash \
  --tp-size 8 \
  --enable-mtp \
  --mtp-max-draft-tokens 6 \
  --mtp-acceptance-rate 0.7 \
  --temperature 0.8
```

### मेमोरी अनुकूलन

मेमोरी-सीमित सेटअप के लिए:

```bash
# मेमोरी उपयोग घटाएँ (धीमा लेकिन 4×A100 में फिट होता है)
python -m sglang.launch_server \
  --model-path mimo-ai/MiMo-V2-Flash \
  --tp-size 4 \
  --mem-fraction-static 0.75 \
  --context-length 16384 \
  --dtype float16 \
  --disable-cuda-graph  # VRAM बचाता है
```

## बेंचमार्किंग उदाहरण

MiMo-V2-Flash की गति लाभ की जाँच करें:

```python
import time
from openai import OpenAI

client = OpenAI(base_url="http://localhost:30000/v1", api_key="EMPTY")

def benchmark_generation():
    start_time = time.time()
    
    response = client.chat.completions.create(
        model="mimo-v2-flash",
        messages=[
            {"role": "user", "content": "Write a detailed explanation of quantum computing in exactly 500 words"}
        ],
        max_tokens=600,
        temperature=0.1,
        stream=False
    )
    
    end_time = time.time()
    content = response.choices[0].message.content
    
    tokens = len(content.split())  # मोटा टोकन अनुमान
    duration = end_time - start_time
    tokens_per_second = tokens / duration
    
    print(f"Generated {tokens} tokens in {duration:.2f}s")
    print(f"Speed: {tokens_per_second:.1f} tokens/second")
    
    return tokens_per_second

# बेंचमार्क चलाएँ
speed = benchmark_generation()
print(f"\nMiMo-V2-Flash achieved {speed:.1f} tok/s")
```

## Clore.ai उपयोगकर्ताओं के लिए सुझाव

* **मल्टी-GPU आवश्यक**: MiMo-V2-Flash के लिए न्यूनतम 4×A100 80GB आवश्यक है। सिंगल-GPU डिप्लॉयमेंट व्यवहार्य नहीं है।
* **NVLink लाभ**: बहु-GPU संचार के लिए सर्वोत्तम परिणामों हेतु उन Clore.ai होस्ट्स का चयन करें जिनमें GPUs के बीच NVLink हो।
* **RAM आवश्यकताएँ**: 8 GPUs के साथ सुचारु संचालन के लिए 256GB+ सिस्टम RAM सुनिश्चित करें।
* **अनुमानात्मक ट्यूनिंग**: समायोजित करें `mtp-max-draft-tokens` अपने उपयोग केस के आधार पर — दोहराए जाने वाले कार्यों के लिए अधिक, रचनात्मक कार्य के लिए कम।
* **संदर्भ लंबाई**: 32K संदर्भ आदर्श है। लंबे संदर्भ अनुमानात्मक डिकोडिंग की प्रभावशीलता को कम करते हैं।

## समस्या निवारण

| समस्या                          | समाधान                                                                           |
| ------------------------------- | -------------------------------------------------------------------------------- |
| `OutOfMemoryError` स्टार्टअप पर | कम करें `mem-fraction-static` या `tp-size`                                       |
| धीमा इंटर-GPU संचार             | NVLink सत्यापित करें: `nvidia-ml-py3` या `nvidia-smi topo -m`                    |
| MTP तेज़ी नहीं ला रहा           | जाँच करें `mtp-acceptance-rate` — बहुत उच्च मान अनुमान को अक्षम कर देते हैं      |
| मॉडल लोडिंग टाइमआउट             | पूर्व-डाउनलोड: `huggingface-cli download mimo-ai/MiMo-V2-Flash`                  |
| कम टोकन स्वीकृति                | तापमान सेटिंग्स सत्यापित करें — बहुत कम/बहुत उच्च तापमान स्वीकृति कम कर देते हैं |

## प्रदर्शन तुलना

| मॉडल              | आकार     | गति (8×H100)     | गुणवत्ता |
| ----------------- | -------- | ---------------- | -------- |
| GPT-4 Turbo       | \~1.7T   | \~15-25 टोक/सेक  | ★★★★★    |
| Claude Sonnet 3.5 | \~200B   | \~25-35 टोक/सेक  | ★★★★★    |
| **MiMo-V2-Flash** | **309B** | **150+ टोक/सेक** | ★★★★☆    |
| Llama 3.1 405B    | 405B     | \~30-45 टोक/सेक  | ★★★★☆    |

MiMo-V2-Flash तुलनीय मॉडलों की तुलना में 3-5x स्पीडअप हासिल करता है जबकि प्रतिस्पर्धी गुणवत्ता बनाए रखता है।

## संसाधन

* [Hugging Face पर MiMo-V2-Flash](https://huggingface.co/mimo-ai/MiMo-V2-Flash)
* [EAGLE पेपर](https://arxiv.org/abs/2401.15077)
* [SGLang दस्तावेज़ीकरण](https://sgl-project.github.io/start/install.html)
* [मल्टी-टोकन पूर्वानुमान (Multi-Token Prediction)](https://arxiv.org/abs/2404.19737)
* [अनुमानात्मक डिकोडिंग गाइड](https://huggingface.co/blog/assisted-generation)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/language-models/mimo-v2-flash.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
