Mistral Large 3 (675B MoE)
Clore.ai GPUs पर Mistral Large 3 चलाएँ — 675B MoE फ्रंटियर मॉडल जिसमें 41B सक्रिय पैरामीटर हैं
Mistral Large 3 Mistral AI का सबसे शक्तिशाली ओपन-वेट मॉडल है, जिसे दिसंबर 2025 में जारी किया गया था Apache 2.0 लाइसेंस। यह एक Mixture-of-Experts (MoE) मॉडल है जिसमें कुल 675B पैरामीटर हैं लेकिन प्रति टोकन केवल 41B सक्रिय होते हैं — जो एक घनी 675B मॉडल की तुलना में कम कंप्यूट पर फ्रंटियर-स्तर का प्रदर्शन देता है। देशी मल्टीमॉडल समर्थन (टेक्स्ट + इमेज), 256K संदर्भ विंडो, और सर्वोत्तम एजेंटिक क्षमताओं के साथ, यह GPT-4o और Claude-श्रेणी के मॉडलों के सीधे प्रतिस्पर्धी है और पूर्ण रूप से स्वयं-होस्ट करने योग्य है।
HuggingFace: mistralai/Mistral-Large-3-675B-Instruct-2512 Ollama: mistral-large-3:675b लाइसेंस: Apache 2.0
प्रमुख विशेषताएँ
कुल 675B / सक्रिय 41B पैरामीटर — MoE कुशलता का मतलब है कि आपको हर पैरामीटर सक्रिय किए बिना फ्रंटियर प्रदर्शन मिलता है
Apache 2.0 लाइसेंस — वाणिज्यिक और व्यक्तिगत उपयोग के लिए पूरी तरह खुला, कोई प्रतिबंध नहीं
मूलतः मल्टीमॉडल — 2.5B विजन एन्कोडर के माध्यम से टेक्स्ट और इमेज दोनों को समझता है
256K संदर्भ विंडो — विशाल दस्तावेज़ों, कोडबेस और लंबी बातचीतों को संभालता है
सर्वोत्तम श्रेणी की एजेंटिक क्षमताएँ — देशी फंक्शन कॉलिंग, JSON मोड, टूल उपयोग
कई परिनियोजन विकल्प — H200/B200 पर FP8, H100/A100 पर NVFP4, उपभोक्ता GPUs के लिए GGUF क्वांटाइज्ड
मॉडल आर्किटेक्चर
आर्किटेक्चर
ग्रेनुलर Mixture-of-Experts (MoE)
कुल पैरामीटर
675B
सक्रिय पैरामीटर
41B (प्रति टोकन)
विजन एन्कोडर
2.5B पैरामीटर
संदर्भ विंडो
256K टोकन
प्रशिक्षण
3,000× H200 GPUs
रिलीज़
दिसंबर 2025
आवश्यकताएँ
GPU
4× RTX 4090
8× A100 80GB
8× H100/H200
VRAM
4×24GB (96GB)
8×80GB (640GB)
8×80GB (640GB)
RAM
128GB
256GB
256GB
डिस्क
400GB
700GB
1.4TB
CUDA
12.0+
12.0+
12.0+
अनुशंसित Clore.ai सेटअप:
सर्वोत्तम मूल्य: 4× RTX 4090 (~$2–8/दिन) — llama.cpp या Ollama के माध्यम से Q4 GGUF क्वांटाइजेशन चलाएँ
प्रोडक्शन गुणवत्ता: 8× A100 80GB (~$16–32/दिन) — vLLM के माध्यम से पूर्ण संदर्भ के साथ NVFP4
अधिकतम प्रदर्शन: 8× H100 (~$24–48/दिन) — FP8, पूर्ण 256K संदर्भ
Ollama के साथ त्वरित शुरुआत
मल्टी-GPU Clore.ai इंस्टेंस पर Mistral Large 3 चलाने का सबसे तेज़ तरीका:
vLLM के साथ क्विक स्टार्ट (प्रोडक्शन)
OpenAI-संगत API के साथ प्रोडक्शन-ग्रेड सर्विंग के लिए:
उपयोग के उदाहरण
1. चैट कम्पलीशन (OpenAI-संगत API)
एक बार vLLM चलने के बाद, किसी भी OpenAI-संगत क्लाइंट का उपयोग करें:
2. फंक्शन कॉलिंग / टूल उपयोग
Mistral Large 3 संरचित टूल कॉलिंग में उत्कृष्ट है:
3. विज़न — इमेज विश्लेषण
Mistral Large 3 स्वाभाविक रूप से इमेजेस को समझता है:
Clore.ai उपयोगकर्ताओं के लिए सुझाव
A100s पर NVFP4 के साथ शुरू करें — यह
Mistral-Large-3-675B-Instruct-2512-NVFP4चेकपॉइंट विशेष रूप से A100/H100 नोड्स के लिए डिज़ाइन किया गया है और FP8 की तुलना में लगभग बिना हानि की गुणवत्ता आधे मेमोरी फुटप्रिंट में प्रदान करता है।त्वरित प्रयोगों के लिए Ollama का उपयोग करें — यदि आपके पास 4× RTX 4090 इंस्टेंस है, तो Ollama GGUF क्वांटाइजेशन को स्वचालित रूप से संभालता है। vLLM प्रोडक्शन सेटअप अपनाने से पहले परीक्षण के लिए यह उपयुक्त है।
API को सुरक्षित रूप से एक्सपोज़ करें — जब Clore.ai इंस्टेंस पर vLLM चला रहे हों, तो SSH टनलिंग (
ssh -L 8000:localhost:8000 root@<ip>) का उपयोग करें न कि पोर्ट 8000 को सीधे एक्सपोज़ करने के बजाय।कम करें
max-model-lenVRAM बचाने के लिए — यदि आपको पूर्ण 256K संदर्भ की आवश्यकता नहीं है, तो सेट करें--max-model-len 32768या65536ताकि KV-cache मेमोरी उपयोग को काफी कम किया जा सके।घने विकल्पों पर विचार करें — सिंगल-GPU सेटअप के लिए, Mistral 3 14B (
mistral3:14bOllama में) एकल RTX 4090 पर उत्कृष्ट प्रदर्शन देता है और वही मॉडल परिवार से है।
समस्याओं का निवारण
CUDA में आउट ऑफ मेमोरी vLLM पर
घटाएँ --max-model-len (32768 आज़माएँ), बढ़ाएँ --tensor-parallel-size, या NVFP4 चेकपॉइंट का उपयोग करें
धीमी जनरेशन स्पीड
सुनिश्चित करें --tensor-parallel-size आपकी GPU गिनती से मेल खाता है; Eagle चेकपॉइंट के साथ स्पेक्युलेटिव डिकोडिंग सक्षम करें
Ollama 675B लोड करने में विफल होता है
सुनिश्चित करें कि आपके पास GPUs पर 96GB+ VRAM है; बड़े मॉडलों के लिए Ollama को आवश्यकता है OLLAMA_NUM_PARALLEL=1 के लिए
tokenizer_mode mistral त्रुटियाँ
आपको सभी तीन फ़्लैग पास करने होंगे: --tokenizer-mode mistral --config-format mistral --load-format mistral
विजन काम नहीं कर रहा
सुनिश्चित करें कि इमेजेस लगभग 1:1 आस्पेक्ट अनुपात के करीब हों; सर्वोत्तम परिणामों के लिए बहुत चौड़ी/पतली इमेज से बचें
डाउनलोड बहुत धीमा
उपयोग करें huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 के साथ HF_TOKEN सेट करें
अधिक पढ़ने के लिए
Mistral 3 घोषणा ब्लॉग — बेंचमार्क के साथ आधिकारिक लॉन्च पोस्ट
HuggingFace मॉडल कार्ड — परिनियोजन निर्देश और बेंचमार्क परिणाम
NVFP4 क्वांटाइज्ड संस्करण — A100/H100 के लिए अनुकूलित
GGUF क्वांटाइज्ड (Unsloth) — llama.cpp और Ollama के लिए
vLLM दस्तावेज़ीकरण — प्रोडक्शन सर्विंग फ्रेमवर्क
Red Hat Day-0 गाइड — चरण-दर-चरण vLLM परिनियोजन
Last updated
Was this helpful?