Mistral Large 3 (675B MoE)

Mistral Large 3 — 41B सक्रिय पैरामीटर के साथ 675B MoE फ्रंटियर मॉडल — को Clore.ai GPUs पर चलाएँ

Mistral Large 3 Mistral AI का सबसे शक्तिशाली ओपन-वेट मॉडल है, जिसे दिसंबर 2025 में जारी किया गया था Apache 2.0 लाइसेंस। यह एक Mixture-of-Experts (MoE) मॉडल है जिसमें कुल 675B पैरामीटर हैं लेकिन प्रति टोकन केवल 41B सक्रिय होते हैं — जो एक घनी 675B मॉडल की तुलना में कम कंप्यूट पर फ्रंटियर-स्तर का प्रदर्शन देता है। देशी मल्टीमॉडल समर्थन (टेक्स्ट + इमेज), 256K संदर्भ विंडो, और सर्वोत्तम एजेंटिक क्षमताओं के साथ, यह GPT-4o और Claude-श्रेणी के मॉडलों के सीधे प्रतिस्पर्धी है और पूर्ण रूप से स्वयं-होस्ट करने योग्य है।

HuggingFace: mistralai/Mistral-Large-3-675B-Instruct-2512 Ollama: mistral-large-3:675b लाइसेंस: Apache 2.0

प्रमुख विशेषताएँ

कुल 675B / सक्रिय 41B पैरामीटर — MoE कुशलता का मतलब है कि आपको हर पैरामीटर सक्रिय किए बिना फ्रंटियर प्रदर्शन मिलता है
Apache 2.0 लाइसेंस — वाणिज्यिक और व्यक्तिगत उपयोग के लिए पूरी तरह खुला, कोई प्रतिबंध नहीं
मूलतः मल्टीमॉडल — 2.5B विजन एन्कोडर के माध्यम से टेक्स्ट और इमेज दोनों को समझता है
256K संदर्भ विंडो — विशाल दस्तावेज़ों, कोडबेस और लंबी बातचीतों को संभालता है
सर्वोत्तम श्रेणी की एजेंटिक क्षमताएँ — देशी फंक्शन कॉलिंग, JSON मोड, टूल उपयोग
कई परिनियोजन विकल्प — H200/B200 पर FP8, H100/A100 पर NVFP4, उपभोक्ता GPUs के लिए GGUF क्वांटाइज्ड

मॉडल आर्किटेक्चर

घटक

विवरण

आर्किटेक्चर

ग्रेनुलर Mixture-of-Experts (MoE)

कुल पैरामीटर

675B

सक्रिय पैरामीटर

41B (प्रति टोकन)

विजन एन्कोडर

2.5B पैरामीटर

संदर्भ विंडो

256K टोकन

प्रशिक्षण

3,000× H200 GPUs

रिलीज़

दिसंबर 2025

आवश्यकताएँ

कॉन्फ़िगरेशन

बजट (Q4 GGUF)

स्टैंडर्ड (NVFP4)

फुल (FP8)

GPU

4× RTX 4090

8× A100 80GB

8× H100/H200

VRAM

4×24GB (96GB)

8×80GB (640GB)

RAM

128GB

256GB

डिस्क

400GB

700GB

1.4TB

CUDA

12.0+

अनुशंसित Clore.ai सेटअप:

सर्वोत्तम मूल्य: 4× RTX 4090 (~$2–8/दिन) — llama.cpp या Ollama के माध्यम से Q4 GGUF क्वांटाइजेशन चलाएँ
प्रोडक्शन गुणवत्ता: 8× A100 80GB (~$16–32/दिन) — vLLM के माध्यम से पूर्ण संदर्भ के साथ NVFP4
अधिकतम प्रदर्शन: 8× H100 (~$24–48/दिन) — FP8, पूर्ण 256K संदर्भ

Ollama के साथ त्वरित शुरुआत

मल्टी-GPU Clore.ai इंस्टेंस पर Mistral Large 3 चलाने का सबसे तेज़ तरीका:

# Ollama इंस्टॉल करें
curl -fsSL https://ollama.com/install.sh | sh

# 675B मॉडल चलाएँ (मल्टी-GPU आवश्यक, Q4 के लिए ~96GB+ VRAM की आवश्यकता)
ollama run mistral-large-3:675b

# छोटे डेंस वेरिएंट्स (सिंगल GPU) के लिए:
ollama run mistral3:14b    # 14B डेंस — RTX 3060+ पर फिट बैठता है
ollama run mistral3:8b     # 8B डेंस — किसी भी GPU पर फिट बैठता है

vLLM के साथ क्विक स्टार्ट (प्रोडक्शन)

OpenAI-संगत API के साथ प्रोडक्शन-ग्रेड सर्विंग के लिए:

# vLLM इंस्टॉल करें
pip install vllm

# 8× A100/H100 पर NVFP4 क्वांटाइजेशन के साथ सर्व करें
vllm serve mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 \
    --tensor-parallel-size 8 \
    --tokenizer-mode mistral \
    --config-format mistral \
    --load-format mistral \
    --max-model-len 65536 \
    --gpu-memory-utilization 0.90 \
    --enable-auto-tool-choice \
    --tool-call-parser mistral \
    --host 0.0.0.0 \
    --port 8000

# FP8 के लिए (मूल वज़न, सर्वोच्च गुणवत्ता):
vllm serve mistralai/Mistral-Large-3-675B-Instruct-2512 \
    --tensor-parallel-size 8 \
    --tokenizer-mode mistral \
    --config-format mistral \
    --load-format mistral \
    --max-model-len 131072 \
    --host 0.0.0.0 \
    --port 8000

उपयोग के उदाहरण

1. चैट कम्पलीशन (OpenAI-संगत API)

एक बार vLLM चलने के बाद, किसी भी OpenAI-संगत क्लाइंट का उपयोग करें:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[
        {"role": "system", "content": "आप एक सहायक कोडिंग असिस्टेंट हैं."},
        {"role": "user", "content": "aiohttp और BeautifulSoup का उपयोग करके एक Python async वेब स्क्रैपर लिखें."}
    ],
    temperature=0.1,
    max_tokens=4096
)

print(response.choices[0].message.content)

2. फंक्शन कॉलिंग / टूल उपयोग

Mistral Large 3 संरचित टूल कॉलिंग में उत्कृष्ट है:

import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "किसी स्थान के लिए वर्तमान मौसम प्राप्त करें",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "शहर का नाम"},
                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
                },
                "required": ["location"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[{"role": "user", "content": "What's the weather in Tokyo?"}],
    tools=tools,
    tool_choice="auto"
)

tool_call = response.choices[0].message.tool_calls[0]
print(f"Function: {tool_call.function.name}")
print(f"Args: {tool_call.function.arguments}")

3. विज़न — इमेज विश्लेषण

Mistral Large 3 स्वाभाविक रूप से इमेजेस को समझता है:

import base64
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

# इमेज एन्कोड करें
with open("diagram.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "इस आर्किटेक्चर डायग्राम का विस्तार से वर्णन करें."},
            {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_b64}"}}
        ]
    }],
    max_tokens=2048
)

print(response.choices[0].message.content)

Clore.ai उपयोगकर्ताओं के लिए सुझाव

A100s पर NVFP4 के साथ शुरू करें — यह Mistral-Large-3-675B-Instruct-2512-NVFP4 चेकपॉइंट विशेष रूप से A100/H100 नोड्स के लिए डिज़ाइन किया गया है और FP8 की तुलना में लगभग बिना हानि की गुणवत्ता आधे मेमोरी फुटप्रिंट में प्रदान करता है।
त्वरित प्रयोगों के लिए Ollama का उपयोग करें — यदि आपके पास 4× RTX 4090 इंस्टेंस है, तो Ollama GGUF क्वांटाइजेशन को स्वचालित रूप से संभालता है। vLLM प्रोडक्शन सेटअप अपनाने से पहले परीक्षण के लिए यह उपयुक्त है।
API को सुरक्षित रूप से एक्सपोज़ करें — जब Clore.ai इंस्टेंस पर vLLM चला रहे हों, तो SSH टनलिंग (ssh -L 8000:localhost:8000 root@<ip>) का उपयोग करें न कि पोर्ट 8000 को सीधे एक्सपोज़ करने के बजाय।
कम करें max-model-len VRAM बचाने के लिए — यदि आपको पूर्ण 256K संदर्भ की आवश्यकता नहीं है, तो सेट करें --max-model-len 32768 या 65536 ताकि KV-cache मेमोरी उपयोग को काफी कम किया जा सके।
घने विकल्पों पर विचार करें — सिंगल-GPU सेटअप के लिए, Mistral 3 14B (mistral3:14b Ollama में) एकल RTX 4090 पर उत्कृष्ट प्रदर्शन देता है और वही मॉडल परिवार से है।

समस्याओं का निवारण

समस्या

समाधान

CUDA में आउट ऑफ मेमोरी vLLM पर

घटाएँ --max-model-len (32768 आज़माएँ), बढ़ाएँ --tensor-parallel-size, या NVFP4 चेकपॉइंट का उपयोग करें

धीमी जनरेशन स्पीड

सुनिश्चित करें --tensor-parallel-size आपकी GPU गिनती से मेल खाता है; Eagle चेकपॉइंट के साथ स्पेक्युलेटिव डिकोडिंग सक्षम करें

Ollama 675B लोड करने में विफल होता है

सुनिश्चित करें कि आपके पास GPUs पर 96GB+ VRAM है; बड़े मॉडलों के लिए Ollama को आवश्यकता है OLLAMA_NUM_PARALLEL=1 के लिए

tokenizer_mode mistral त्रुटियाँ

आपको सभी तीन फ़्लैग पास करने होंगे: --tokenizer-mode mistral --config-format mistral --load-format mistral

विजन काम नहीं कर रहा

सुनिश्चित करें कि इमेजेस लगभग 1:1 आस्पेक्ट अनुपात के करीब हों; सर्वोत्तम परिणामों के लिए बहुत चौड़ी/पतली इमेज से बचें

डाउनलोड बहुत धीमा

उपयोग करें huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 के साथ HF_TOKEN सेट करें

अधिक पढ़ने के लिए

Mistral 3 घोषणा ब्लॉग — बेंचमार्क के साथ आधिकारिक लॉन्च पोस्ट
HuggingFace मॉडल कार्ड — परिनियोजन निर्देश और बेंचमार्क परिणाम
NVFP4 क्वांटाइज्ड संस्करण — A100/H100 के लिए अनुकूलित
GGUF क्वांटाइज्ड (Unsloth) — llama.cpp और Ollama के लिए
vLLM दस्तावेज़ीकरण — प्रोडक्शन सर्विंग फ्रेमवर्क
Red Hat Day-0 गाइड — चरण-दर-चरण vLLM परिनियोजन

PreviousKimi K2.5 NextMiMo-V2-Flash

Last updated 22 days ago

Was this helpful?

hashtagप्रमुख विशेषताएँ

hashtagमॉडल आर्किटेक्चर

hashtagआवश्यकताएँ

hashtagOllama के साथ त्वरित शुरुआत

hashtagvLLM के साथ क्विक स्टार्ट (प्रोडक्शन)

hashtagउपयोग के उदाहरण

hashtag1. चैट कम्पलीशन (OpenAI-संगत API)

hashtag2. फंक्शन कॉलिंग / टूल उपयोग

hashtag3. विज़न — इमेज विश्लेषण

hashtagClore.ai उपयोगकर्ताओं के लिए सुझाव

hashtagसमस्याओं का निवारण

hashtagअधिक पढ़ने के लिए