MiMo-V2-Flash

MiMo-V2-Flash (309B MoE) को अनुमानात्मक डीकोडिंग के साथ Clore.ai पर तैनात करें — 150+ टोक/सेकंड से अल्ट्रा-फास्ट इनफेरेंस

MiMo-V2-Flash एक है 309-अरब पैरामीटर मिश्रण-ऑफ-एक्सपर्ट्स भाषा मॉडल जो प्रति टोकन 15B पैरामीटर सक्रिय करता है। उन्नत स्वरुपिक उपनकला (speculative decoding) (EAGLE/MTP) के साथ निर्मित, यह प्रदान करता है 150+ टोकन/सेकंड 8×H100 पर जबकि सीमा-स्तरीय प्रदर्शन बनाए रखता है। जारी किया गया है MIT लाइसेंस के अंतर्गत, यह कुशल बड़े पैमाने पर अनुमान (inference) का सबसे आगे का प्रतिनिधित्व करता है।

एक नज़र में

  • मॉडल आकार: 309B कुल / 15B सक्रिय पैरामीटर (MoE)

  • लाइसेंस: MIT (पूर्ण रूप से वाणिज्यिक)

  • संदर्भ: 32K टोकन

  • प्रदर्शन: तार्किक बेसलाइन पर सर्वोत्कृष्ट (state-of-the-art) प्रदर्शन

  • VRAM: ~320GB FP16 (न्यूनतम 4×A100 80GB)

  • स्पीड: अनुमानात्मक (speculative) डिकोडिंग के साथ 8×H100 पर 150+ टोक/सेक

क्यों MiMo-V2-Flash?

उल्लेखनीय गति: EAGLE (Extrapolation Algorithm for Greater Language model Efficiency) और MTP (Multi-Token Prediction) के माध्यम से MiMo-V2-Flash अभूतपूर्व अनुमान गति प्राप्त करता है। जहां पारंपरिक मॉडल एक समय में एक टोकन जनरेट करते हैं, MiMo-V2 कई टोकन समानांतर में अनुमान और सत्यापित करता है।

उत्पादन-तैयार पैमाना: 309B पैरामीटर पर, MiMo-V2-Flash सबसे बड़े अग्रिम मॉडल्स के साथ प्रतिस्पर्धा करता है जबकि वास्तविक हार्डवेयर कॉन्फ़िगरेशन पर तैनात रहने योग्य भी है। 15B सक्रिय पैरामीटर विशाल पैरामीटर गिनती के बावजूद कुशल अनुमान सुनिश्चित करते हैं।

उन्नत वास्तुकला: मानक MoE से परे, MiMo-V2-Flash मॉडल आर्किटेक्चर में अनुमानात्मक डिकोडिंग को मूल रूप से शामिल करता है। यह पोस्ट-प्रशिक्षण अनुकूलन नहीं है — यह नींव में निर्मित है, जो गारंटीकृत स्पीडअप सक्षम बनाता है।

उद्यम-गुणवत्ता: उपयोग प्रतिबंधों के बिना MIT लाइसेंसिंग। बड़े पैमाने पर परिनियोजित करें, फाइन-ट्यून करें, या वाणिज्यिक उत्पादों में बिना लाइसेंसिंग चिंताओं के एकीकृत करें।

GPU सिफारिशें

सेटअप
VRAM
प्रदर्शन
दैनिक लागत*

4×A100 80GB

320GB

~80 टोक/सेक

~$16.00

8×A100 40GB

320GB

~70 टोक/सेक

~$28.00

2×H100

160GB

~90 टोक/सेक

~$12.00

8×H100

640GB

150+ टोक/सेक

~$48.00

4×H200

564GB

~120 टोक/सेक

~$32.00

श्रेष्ठ मूल्य: 4×A100 80GB प्रति डॉलर उत्कृष्ट प्रदर्शन प्रदान करता है। अधिकतम प्रदर्शन: 8×H100 अनुमानात्मक डिकोडिंग की पूर्ण क्षमता खोलता है।

*अनुमानित Clore.ai मार्केटप्लेस कीमतें

SGLang के साथ तैनात करें (अनुशंसित)

SGLang MiMo-V2-Flash की अनुमानात्मक डिकोडिंग सुविधाओं के लिए सर्वोत्तम समर्थन प्रदान करता है:

SGLang इंस्टॉल करें

MTP के साथ मल्टी-GPU सेटअप

OpenAI API के साथ क्वेरी करें

vLLM के साथ तैनात करें

vLLM भी अनुमानात्मक डिकोडिंग के साथ MiMo-V2-Flash का समर्थन करता है:

डॉकर टेम्पलेट

सभी GPUs के साथ चलाएँ:

उन्नत कॉन्फ़िगरेशन

अनुमानात्मक डिकोडिंग का अनुकूलन

अपने वर्कलोड के आधार पर अनुमानात्मक पैरामीटर फ़ाइन-ट्यून करें:

मेमोरी अनुकूलन

मेमोरी-सीमित सेटअप के लिए:

बेंचमार्किंग उदाहरण

MiMo-V2-Flash की गति लाभ की जाँच करें:

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  • मल्टी-GPU आवश्यक: MiMo-V2-Flash के लिए न्यूनतम 4×A100 80GB आवश्यक है। सिंगल-GPU डिप्लॉयमेंट व्यवहार्य नहीं है।

  • NVLink लाभ: बहु-GPU संचार के लिए सर्वोत्तम परिणामों हेतु उन Clore.ai होस्ट्स का चयन करें जिनमें GPUs के बीच NVLink हो।

  • RAM आवश्यकताएँ: 8 GPUs के साथ सुचारु संचालन के लिए 256GB+ सिस्टम RAM सुनिश्चित करें।

  • अनुमानात्मक ट्यूनिंग: समायोजित करें mtp-max-draft-tokens अपने उपयोग केस के आधार पर — दोहराए जाने वाले कार्यों के लिए अधिक, रचनात्मक कार्य के लिए कम।

  • संदर्भ लंबाई: 32K संदर्भ आदर्श है। लंबे संदर्भ अनुमानात्मक डिकोडिंग की प्रभावशीलता को कम करते हैं।

समस्या निवारण

समस्या
समाधान

OutOfMemoryError स्टार्टअप पर

कम करें mem-fraction-static या tp-size

धीमा इंटर-GPU संचार

NVLink सत्यापित करें: nvidia-ml-py3 या nvidia-smi topo -m

MTP तेज़ी नहीं ला रहा

जाँच करें mtp-acceptance-rate — बहुत उच्च मान अनुमान को अक्षम कर देते हैं

मॉडल लोडिंग टाइमआउट

पूर्व-डाउनलोड: huggingface-cli download mimo-ai/MiMo-V2-Flash

कम टोकन स्वीकृति

तापमान सेटिंग्स सत्यापित करें — बहुत कम/बहुत उच्च तापमान स्वीकृति कम कर देते हैं

प्रदर्शन तुलना

मॉडल
आकार
गति (8×H100)
गुणवत्ता

GPT-4 Turbo

~1.7T

~15-25 टोक/सेक

★★★★★

Claude Sonnet 3.5

~200B

~25-35 टोक/सेक

★★★★★

MiMo-V2-Flash

309B

150+ टोक/सेक

★★★★☆

Llama 3.1 405B

405B

~30-45 टोक/सेक

★★★★☆

MiMo-V2-Flash तुलनीय मॉडलों की तुलना में 3-5x स्पीडअप हासिल करता है जबकि प्रतिस्पर्धी गुणवत्ता बनाए रखता है।

संसाधन

Last updated

Was this helpful?