Mistral Large 3 (675B MoE)

Clore.ai GPUs पर Mistral Large 3 चलाएँ — 675B MoE फ्रंटियर मॉडल जिसमें 41B सक्रिय पैरामीटर हैं

Mistral Large 3 Mistral AI का सबसे शक्तिशाली ओपन-वेट मॉडल है, जिसे दिसंबर 2025 में जारी किया गया था Apache 2.0 लाइसेंस। यह एक Mixture-of-Experts (MoE) मॉडल है जिसमें कुल 675B पैरामीटर हैं लेकिन प्रति टोकन केवल 41B सक्रिय होते हैं — जो एक घनी 675B मॉडल की तुलना में कम कंप्यूट पर फ्रंटियर-स्तर का प्रदर्शन देता है। देशी मल्टीमॉडल समर्थन (टेक्स्ट + इमेज), 256K संदर्भ विंडो, और सर्वोत्तम एजेंटिक क्षमताओं के साथ, यह GPT-4o और Claude-श्रेणी के मॉडलों के सीधे प्रतिस्पर्धी है और पूर्ण रूप से स्वयं-होस्ट करने योग्य है।

HuggingFace: mistralai/Mistral-Large-3-675B-Instruct-2512arrow-up-right Ollama: mistral-large-3:675barrow-up-right लाइसेंस: Apache 2.0

प्रमुख विशेषताएँ

  • कुल 675B / सक्रिय 41B पैरामीटर — MoE कुशलता का मतलब है कि आपको हर पैरामीटर सक्रिय किए बिना फ्रंटियर प्रदर्शन मिलता है

  • Apache 2.0 लाइसेंस — वाणिज्यिक और व्यक्तिगत उपयोग के लिए पूरी तरह खुला, कोई प्रतिबंध नहीं

  • मूलतः मल्टीमॉडल — 2.5B विजन एन्कोडर के माध्यम से टेक्स्ट और इमेज दोनों को समझता है

  • 256K संदर्भ विंडो — विशाल दस्तावेज़ों, कोडबेस और लंबी बातचीतों को संभालता है

  • सर्वोत्तम श्रेणी की एजेंटिक क्षमताएँ — देशी फंक्शन कॉलिंग, JSON मोड, टूल उपयोग

  • कई परिनियोजन विकल्प — H200/B200 पर FP8, H100/A100 पर NVFP4, उपभोक्ता GPUs के लिए GGUF क्वांटाइज्ड

मॉडल आर्किटेक्चर

घटक
विवरण

आर्किटेक्चर

ग्रेनुलर Mixture-of-Experts (MoE)

कुल पैरामीटर

675B

सक्रिय पैरामीटर

41B (प्रति टोकन)

विजन एन्कोडर

2.5B पैरामीटर

संदर्भ विंडो

256K टोकन

प्रशिक्षण

3,000× H200 GPUs

रिलीज़

दिसंबर 2025

आवश्यकताएँ

कॉन्फ़िगरेशन
बजट (Q4 GGUF)
स्टैंडर्ड (NVFP4)
फुल (FP8)

GPU

4× RTX 4090

8× A100 80GB

8× H100/H200

VRAM

4×24GB (96GB)

8×80GB (640GB)

8×80GB (640GB)

RAM

128GB

256GB

256GB

डिस्क

400GB

700GB

1.4TB

CUDA

12.0+

12.0+

12.0+

अनुशंसित Clore.ai सेटअप:

  • सर्वोत्तम मूल्य: 4× RTX 4090 (~$2–8/दिन) — llama.cpp या Ollama के माध्यम से Q4 GGUF क्वांटाइजेशन चलाएँ

  • प्रोडक्शन गुणवत्ता: 8× A100 80GB (~$16–32/दिन) — vLLM के माध्यम से पूर्ण संदर्भ के साथ NVFP4

  • अधिकतम प्रदर्शन: 8× H100 (~$24–48/दिन) — FP8, पूर्ण 256K संदर्भ

Ollama के साथ त्वरित शुरुआत

मल्टी-GPU Clore.ai इंस्टेंस पर Mistral Large 3 चलाने का सबसे तेज़ तरीका:

vLLM के साथ क्विक स्टार्ट (प्रोडक्शन)

OpenAI-संगत API के साथ प्रोडक्शन-ग्रेड सर्विंग के लिए:

उपयोग के उदाहरण

1. चैट कम्पलीशन (OpenAI-संगत API)

एक बार vLLM चलने के बाद, किसी भी OpenAI-संगत क्लाइंट का उपयोग करें:

2. फंक्शन कॉलिंग / टूल उपयोग

Mistral Large 3 संरचित टूल कॉलिंग में उत्कृष्ट है:

3. विज़न — इमेज विश्लेषण

Mistral Large 3 स्वाभाविक रूप से इमेजेस को समझता है:

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  1. A100s पर NVFP4 के साथ शुरू करें — यह Mistral-Large-3-675B-Instruct-2512-NVFP4 चेकपॉइंट विशेष रूप से A100/H100 नोड्स के लिए डिज़ाइन किया गया है और FP8 की तुलना में लगभग बिना हानि की गुणवत्ता आधे मेमोरी फुटप्रिंट में प्रदान करता है।

  2. त्वरित प्रयोगों के लिए Ollama का उपयोग करें — यदि आपके पास 4× RTX 4090 इंस्टेंस है, तो Ollama GGUF क्वांटाइजेशन को स्वचालित रूप से संभालता है। vLLM प्रोडक्शन सेटअप अपनाने से पहले परीक्षण के लिए यह उपयुक्त है।

  3. API को सुरक्षित रूप से एक्सपोज़ करें — जब Clore.ai इंस्टेंस पर vLLM चला रहे हों, तो SSH टनलिंग (ssh -L 8000:localhost:8000 root@<ip>) का उपयोग करें न कि पोर्ट 8000 को सीधे एक्सपोज़ करने के बजाय।

  4. कम करें max-model-len VRAM बचाने के लिए — यदि आपको पूर्ण 256K संदर्भ की आवश्यकता नहीं है, तो सेट करें --max-model-len 32768 या 65536 ताकि KV-cache मेमोरी उपयोग को काफी कम किया जा सके।

  5. घने विकल्पों पर विचार करें — सिंगल-GPU सेटअप के लिए, Mistral 3 14B (mistral3:14b Ollama में) एकल RTX 4090 पर उत्कृष्ट प्रदर्शन देता है और वही मॉडल परिवार से है।

समस्याओं का निवारण

समस्या
समाधान

CUDA में आउट ऑफ मेमोरी vLLM पर

घटाएँ --max-model-len (32768 आज़माएँ), बढ़ाएँ --tensor-parallel-size, या NVFP4 चेकपॉइंट का उपयोग करें

धीमी जनरेशन स्पीड

सुनिश्चित करें --tensor-parallel-size आपकी GPU गिनती से मेल खाता है; Eagle चेकपॉइंट के साथ स्पेक्युलेटिव डिकोडिंग सक्षम करें

Ollama 675B लोड करने में विफल होता है

सुनिश्चित करें कि आपके पास GPUs पर 96GB+ VRAM है; बड़े मॉडलों के लिए Ollama को आवश्यकता है OLLAMA_NUM_PARALLEL=1 के लिए

tokenizer_mode mistral त्रुटियाँ

आपको सभी तीन फ़्लैग पास करने होंगे: --tokenizer-mode mistral --config-format mistral --load-format mistral

विजन काम नहीं कर रहा

सुनिश्चित करें कि इमेजेस लगभग 1:1 आस्पेक्ट अनुपात के करीब हों; सर्वोत्तम परिणामों के लिए बहुत चौड़ी/पतली इमेज से बचें

डाउनलोड बहुत धीमा

उपयोग करें huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 के साथ HF_TOKEN सेट करें

अधिक पढ़ने के लिए

Last updated

Was this helpful?