Mistral.rs

रस्ट में लिखा गया वाक्यहीन तेज़ LLM इन्फ़रेंस — GGUF, GGML, SafeTensors समर्थन और OpenAI-संगत API के साथ उत्पादन-तैयार सर्वर।

🦀 रस्ट में निर्मित अधिकतम प्रदर्शन के लिए | GGUF और विज़न मॉडल समर्थन | Apache-2.0 लाइसेंस


Mistral.rs क्या है?

Mistral.rs एक उच्च-प्रदर्शन LLM इन्फ़रेंस इंजन है जो पूरी तरह से रस्टमें लिखा गया है। मूल रूप से Mistral मॉडलों पर केंद्रित, अब यह आधुनिक LLMs के पूरे परिदृश्य का समर्थन करता है। रस्ट फाउंडेशन प्रदान करती है:

  • शून्य-लागत अमूर्तताएँ — इन्फ़रेंस के दौरान कोई गार्बेज कलेक्शन विराम नहीं

  • मेमोरी सुरक्षा — कोई नल पॉइंटर अपवाद या मेमोरी लीक नहीं

  • नियतात्मक प्रदर्शन — JVM/Python ओवरहेड के बिना सुसंगत विलंबता

  • समय-निर्माण अनुकूलन — बिल्ड समय पर SIMD, थ्रेडिंग, और GPU कर्नल्स अनुकूलित

मुख्य विशेषताएँ

  • GGUF समर्थन — किसी भी क्वांटाइज्ड मॉडल को चलाएँ (Q4_K_M, Q8_0, आदि)

  • ISQ (इन-सिटू क्वांटाइज़ेशन) — लोड समय पर ऑन-द-फ्लाई क्वांटाइज़ करें

  • PagedAttention — निरंतर बैचिंग के साथ कुशल KV कैश

  • विजन लैंग्वेज मॉडल्स — LLaVA, Phi-3 Vision, Idefics समर्थन

  • स्पेकुलेटिव डिकोडिंग — ड्राफ्ट मॉडलों के साथ तेज़ इन्फ़रेंस

  • X-LoRA — स्केलेबल फाइन-ट्यून्ड एडाप्टर समर्थन

  • OpenAI-अनुकूल REST API — ड्रॉप-इन रिप्लेसमेंट

समर्थित मॉडल परिवार

परिवार
फॉर्मैट
इंजन

Llama 2/3

GGUF, SafeTensors

Rust CUDA

Mistral/Mixtral

GGUF, SafeTensors

Rust CUDA

Phi-2/3

GGUF, SafeTensors

Rust CUDA

Gemma

GGUF, SafeTensors

Rust CUDA

Qwen 2

GGUF, SafeTensors

Rust CUDA

Starcoder 2

GGUF

Rust CUDA

LLaVA 1.5/1.6

SafeTensors

विजन

Phi-3 Vision

SafeTensors

विजन


Clore.ai पर शीघ्र आरम्भ

चरण 1: एक GPU सर्वर खोजें

पर clore.aiarrow-up-right मार्केटप्लेस:

  • न्यूनतम: 8GB VRAM (7B Q4 मॉडलों के लिए)

  • अनुशंसित: बड़े मॉडलों के लिए RTX 3090/4090 (24GB)

  • CUDA 11.8+ आवश्यक

चरण 2: Mistral.rs Docker तैनात करें

पोर्ट मैपिंग्स:

कंटेनर पोर्ट
उद्देश्य

22

SSH पहुंच

8080

REST API सर्वर

उपलब्ध इमेज वैरिएंट्स:

चरण 3: कनेक्ट और सत्यापित करें


सर्वर चलाना

GGUF मॉडल के साथ त्वरित प्रारंभ

Mistral 7B (SafeTensors) सर्व करें

इन-सिटू क्वांटाइज़ेशन (ISQ) के साथ सर्व करें

ISQ लोड समय पर मॉडल को क्वांटाइज़ करता है — किसी प्री-क्वांटाइज़्ड मॉडल की आवश्यकता नहीं:

विजन लैंग्वेज मॉडल

स्पेकुलेटिव डिकोडिंग

circle-check

API उपयोग

OpenAI-संगत एंडपॉइंट्स

एंडपॉइंट
विधि
विवरण

/v1/chat/completions

POST

चैट कम्प्लीशन्स

/v1/completions

POST

टेक्स्ट कंप्लीशंस

/v1/models

GET

मॉडल सूचीबद्ध करें

/v1/images/generations

POST

इमेज जनरेशन (VLMs)

/v1/re_isq

POST

लोड किए गए मॉडल को फिर से-क्वांटाइज़ करें

/health

GET

हेल्थ चेक

पायथन उदाहरण

स्ट्रीमिंग प्रतिक्रिया

विजन/इमेज इनपुट

cURL उदाहरण


कॉन्फ़िगरेशन विकल्प

सर्वर फ़्लैग्स

ISQ क्वांटाइज़ेशन संदर्भ

ISQ विकल्प
बिट्स
गुणवत्ता
VRAM (7B)

Q2K

2

★★☆☆☆

~2.5GB

Q3K

3

★★★☆☆

~3.5GB

Q4_0

4

★★★★☆

~4.5GB

Q4K

4

★★★★☆

~4.5GB

Q5K

5

★★★★★

~5.5GB

Q6K

6

★★★★★

~6.5GB

Q8_0

8

★★★★★

~8GB

HQQ4

4

★★★★☆

~4.5GB

HQQ8

8

★★★★★

~8GB

circle-info

HQQ (हाफ-क्वाड्रेटिक क्वांटाइज़ेशन) अक्सर समान बिट स्तर पर GGUF Q4 की तुलना में बेहतर गुणवत्ता प्राप्त करता है, विशेष रूप से निर्देश-अनुसरण कार्यों के लिए।


उन्नत सुविधाएँ

X-LoRA (LoRA एडाप्टर का मिश्रण)

प्रति टोकन गतिशील रूप से चुने गए कई फाइन-ट्यून्ड एडाप्टर्स चलाएँ:

रनटाइम पर फिर से-क्वांटाइज़ करें

अनुरोध लॉगिंग


प्रदर्शन ट्यूनिंग

थ्रूपुट के लिए अनुकूलित करें

कम विलंबता के लिए अनुकूलित करें

प्रदर्शन पर नजर रखें


Docker Compose


स्रोत से बिल्ड करना

यदि Docker इमेज आपके CUDA संस्करण से मेल नहीं खाती:

circle-exclamation

समस्या निवारण

CUDA पुस्तकालय नहीं मिला

मॉडल डाउनलोड विफल

पोर्ट 8080 उपयोग में है

क्वांटाइज़ेशन के दौरान मेमोरी समाप्त

triangle-exclamation

Clore.ai GPU सिफारिशें

Mistral.rs एक रस्ट-नेटिव इंजन है — इसका कम ओवरहेड आपको Python-आधारित सर्वरों की तुलना में प्रति GPU डॉलर अधिक थ्रूपुट देता है।

GPU
VRAM
Clore.ai कीमत
अनुशंसित उपयोग
थ्रूपुट (Mistral 7B Q4)

RTX 3090

24 GB

~$0.12/घंटा

सर्वोत्तम बजट विकल्प — 7B Q4/Q8, विज़न मॉडल्स

~120 tok/s

RTX 4090

24 GB

~$0.70/घंटा

उच्च-थ्रूपुट 7B–34B, स्पेकुलेटिव डिकोडिंग

~200 tok/s

A100 40GB

40 GB

~$1.20/घंटा

उत्पादन 34B–70B Q4 सर्विंग

~160 tok/s

A100 80GB

80 GB

~$2.00/घंटा

पूर्ण-प्रिसीजन 70B, मल्टी-मॉडल

~185 tok/s

क्यों RTX 3090 यहाँ उत्कृष्ट है: Mistral.rs के Rust CUDA कर्नल Python GIL ओवरहेड और गार्बेज कलेक्शन विरामों से बचते हैं जो Python सर्वरों को प्रभावित करते हैं। Mistral 7B Q4_K_M चलाते हुए एक RTX 3090 प्रदान करता है 120 tok/s — समान हार्डवेयर पर vLLM के बराबर और लागत का एक हिस्सा ($0.12/hr बनाम क्लाउड प्रदाताओं का $1–2/hr चार्ज)।

स्पेकुलेटिव डिकोडिंग: किसी बड़े मॉडल (34B) को एक छोटे ड्राफ्ट मॉडल (3B) के साथ पेयर करें बिना गुणवत्ता हानि के 2–3× गति वृद्धि के लिए। इस पैटर्न के लिए RTX 4090 आदर्श है।


संसाधन

Last updated

Was this helpful?