Mistral Small 3.1

Clore.ai पर Mistral Small 3.1 (24B) तैनात करें — आदर्श सिंगल-GPU प्रोडक्शन मॉडल

Mistral Small 3.1, जिसे Mistral AI ने मार्च 2025 में जारी किया था, एक 24-बिलियन पैरामीटर का घना मॉडल जो अपने वजन से कहीं अधिक प्रदर्शन करता है। 128K कॉन्टेक्स्ट विंडो, नेटिव विजन क्षमताओं, सर्वश्रेष्ठ-इन-क्लास फ़ंक्शन कॉलिंग, और एक Apache 2.0 लाइसेंसयह तर्कसंगत रूप से सबसे अच्छा मॉडल हो सकता है जिसे आप एकल RTX 4090 पर चला सकते हैं। यह अधिकांश बेंचमार्क पर GPT-4o Mini और Claude 3.5 Haiku से बेहतर प्रदर्शन करता है जबकि क्वांटाइज़ किए जाने पर उपभोक्ता हार्डवेयर पर आराम से फिट हो जाता है।

प्रमुख विशेषताएँ

  • 24B डेंस पैरामीटर — कोई MoE जटिलता नहीं, सीधे तैनाती

  • 128K संदर्भ विंडो — RULER 128K स्कोर 81.2%, GPT-4o Mini (65.8%) से बेहतर

  • नेटिव विजन — छवियों, चार्टों, दस्तावेज़ों और स्क्रीनशॉट्स का विश्लेषण करें

  • Apache 2.0 लाइसेंस — वाणिज्यिक और व्यक्तिगत उपयोग के लिए पूर्ण रूप से खुला

  • उत्कृष्ट फ़ंक्शन कॉलिंग — JSON आउटपुट के साथ नेटिव टूल उपयोग, एजेंटिक वर्कफ़्लोज़ के लिए आदर्श

  • बहुभाषी — CJK, अरबी, हिंदी और यूरोपीय भाषाओं सहित 25+ भाषाएँ

आवश्यकताएँ

घटक
क्वांटाइज़्ड (Q4)
पूर्ण सटीकता (BF16)

GPU

1× RTX 4090 24GB

2× RTX 4090 या 1× H100

VRAM

~16GB

~55GB

RAM

32GB

64GB

डिस्क

20GB

50GB

CUDA

11.8+

12.0+

Clore.ai सिफारिश: क्वांटाइज़्ड इंफरेंस के लिए RTX 4090 (~$0.5–2/दिन) — सर्वश्रेष्ठ मूल्य/प्रदर्शन अनुपात

Ollama के साथ त्वरित शुरुआत

Mistral Small 3.1 को चलाने का सबसे तेज़ तरीका:

OpenAI-Compatible API के रूप में Ollama

विजन के साथ Ollama

vLLM सेटअप (प्रोडक्शन)

उत्पादन कार्यभार के लिए जिनमें उच्च थ्रूपुट और समवर्ती अनुरोध हों:

एकल GPU पर सेवा (केवल टेक्स्ट)

विजन के साथ सेवा (2 GPUs की सिफारिश)

सर्वर से प्रश्न पूछें

HuggingFace Transformers

प्रत्यक्ष Python एकीकरण और प्रयोग के लिए:

फ़ंक्शन कॉलिंग उदाहरण

Mistral Small 3.1 उपकरण उपयोग के लिए सर्वश्रेष्ठ छोटे मॉडलों में से एक है:

Docker त्वरित शुरुआत

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  • RTX 4090 सबसे उपयुक्त है: $0.5–2/दिन पर, एकल RTX 4090 क्वांटाइज़्ड Mistral Small 3.1 चला सकता है और कुछ जगह बचा कर रखता है। सामान्य-उद्देश्य LLM के लिए Clore.ai पर सर्वश्रेष्ठ लागत/प्रदर्शन अनुपात।

  • कम तापमान का उपयोग करें: Mistral AI सुझाव देता है temperature=0.15 अधिकांश कार्यों के लिए। उच्च तापमान इस मॉडल के साथ असंगत आउटपुट का कारण बनते हैं।

  • RTX 3090 भी काम करता है: $0.3–1/दिन पर, RTX 3090 (24GB) Ollama के साथ Q4 क्वांटाइज़्ड ठीक से चलाता है। 4090 की तुलना में थोड़ा धीमा लेकिन कीमत में आधा है।

  • त्वरित सेटअप के लिए Ollama, उत्पादन के लिए vLLM: Ollama आपको 60 सेकंड में कार्यरत मॉडल देता है। समवर्ती API अनुरोधों और उच्च थ्रूपुट के लिए, vLLM पर स्विच करें।

  • फ़ंक्शन कॉलिंग इसे विशेष बनाती है: कई 24B मॉडल चैट कर सकते हैं — कुछ ही भरोसेमंद तरीके से टूल कॉल कर पाते हैं। Mistral Small 3.1 की फ़ंक्शन कॉलिंग GPT-4o Mini के समकक्ष है। एजेंट, API बैकएंड और ऑटोमेशन पाइपलाइनों का आत्मविश्वास के साथ निर्माण करें।

समस्याओं का निवारण

समस्या
समाधान

OutOfMemoryError RTX 4090 पर

Ollama के माध्यम से या क्वांटाइज़्ड मॉडल का उपयोग करें load_in_4bit=True Transformers में। पूर्ण BF16 को ~55GB की आवश्यकता होती है।

Ollama मॉडल नहीं मिला

उपयोग करें ollama run mistral-small3.1 (आधिकारिक लाइब्रेरी नाम)।

vLLM टोकनाइज़र त्रुटियाँ

हमेशा पास करें --tokenizer-mode mistral --config-format mistral --load-format mistral.

खराब आउटपुट गुणवत्ता

सेट करें temperature=0.15. एक सिस्टम प्रॉम्प्ट जोड़ें। Mistral Small तापमान के प्रति संवेदनशील है।

1 GPU पर विजन काम नहीं कर रहा है

विजन सुविधाओं को अधिक VRAM की आवश्यकता होती है। उपयोग करें --tensor-parallel-size 2 या घटाएँ --max-model-len.

फ़ंक्शन कॉल खाली लौटते हैं

जोड़ें --tool-call-parser mistral --enable-auto-tool-choice vLLM serve में।

अधिक पढ़ने के लिए

Last updated

Was this helpful?