Mistral & Mixtral

Clore.ai GPUs पर Mistral और Mixtral मॉडल चलाएँ

circle-info

नवीनतम संस्करण उपलब्ध हैं! देखें मिस्ट्रल स्मॉल 3.1 (24B, Apache 2.0, RTX 4090 पर फिट होता है) और Mistral Large 3 (675B MoE, फ्रंटियर-क्लास)।

उच्च-गुणवत्ता पाठ जनरेशन के लिए Mistral और Mixtral मॉडल चलाएँ।

circle-check

CLORE.AI पर किराये पर लेना

  1. GPU प्रकार, VRAM, और मूल्य के अनुसार फ़िल्टर करें

  2. चुनें ऑन-डिमांड (निश्चित दर) या स्पॉट (बिड प्राइस)

  3. अपना ऑर्डर कॉन्फ़िगर करें:

    • Docker इमेज चुनें

    • पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)

    • यदि आवश्यक हो तो एनवायरनमेंट वेरिएबल जोड़ें

    • स्टार्टअप कमांड दर्ज करें

  4. भुगतान चुनें: CLORE, BTC, या USDT/USDC

  5. ऑर्डर बनाएं और डिप्लॉयमेंट का इंतज़ार करें

अपने सर्वर तक पहुँचें

  • कनेक्शन विवरण में खोजें मेरे ऑर्डर

  • वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें

  • SSH: ssh -p <port> root@<proxy-address>

मॉडल अवलोकन

मॉडल
पैरामीटर
VRAM
विशेषता

Mistral-7B

7B

8GB

सामान्य प्रयोजन

Mistral-7B-Instruct

7B

8GB

चैट/निर्देश

Mixtral-8x7B

46.7B (12.9B सक्रिय)

24GB

MoE, सर्वश्रेष्ठ गुणवत्ता

Mixtral-8x22B

141B

80GB+

सबसे बड़ा MoE

त्वरित तैनाती

Docker इमेज:

पोर्ट:

कमांड:

अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

  1. जाएँ मेरे ऑर्डर पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की बजाय localhost नीचे दिए उदाहरणों में।

इंस्टॉलेशन विकल्प

Ollama का उपयोग करना (सबसे आसान)

vLLM का उपयोग करना

Transformers का उपयोग करना

Transformers के साथ Mistral-7B

Mixtral-8x7B

क्वांटाइज़्ड मॉडल (कम VRAM)

4-बिट क्वांटाइज़ेशन

GGUF के साथ llama.cpp

vLLM सर्वर (प्रोडक्शन)

OpenAI-समकक्ष API

स्ट्रीमिंग

फंक्शन कॉलिंग

Mistral फंक्शन कॉलिंग का समर्थन करता है:

Gradio इंटरफ़ेस

प्रदर्शन तुलना

थ्रूपुट (टोकन/सेकंड)

मॉडल
RTX 3060
RTX 3090
RTX 4090
A100 40GB

Mistral-7B FP16

45

80

120

150

Mistral-7B Q4

70

110

160

200

Mixtral-8x7B FP16

-

-

30

60

Mixtral-8x7B Q4

-

25

50

80

Mixtral-8x22B Q4

-

-

-

25

पहले टोकन तक का समय (TTFT)

मॉडल
RTX 3090
RTX 4090
A100

Mistral-7B

80ms

50ms

35ms

Mixtral-8x7B

-

150ms

90ms

Mixtral-8x22B

-

-

200ms

कॉन्टेक्स्ट लंबाई बनाम VRAM (Mistral-7B)

संदर्भ
FP16
Q8
Q4

4K

15GB

9GB

5GB

8K

18GB

11GB

7GB

16K

24GB

15GB

9GB

32K

36GB

22GB

14GB

VRAM आवश्यकताएँ

मॉडल
FP16
8-बिट
4-बिट

Mistral-7B

14GB

8GB

5GB

Mixtral-8x7B

90GB

45GB

24GB

Mixtral-8x22B

180GB

90GB

48GB

उपयोग के मामले

कोड जनरेशन

डेटा विश्लेषण

क्रिएटिव राइटिंग

समस्याओं का निवारण

आउट ऑफ़ मेमोरी

  • 4-बिट क्वांटाइज़ेशन का उपयोग करें

  • Mixtral के बजाय Mistral-7B का उपयोग करें

  • max_model_len कम करें

धीमा जनरेशन

  • प्रोडक्शन के लिए vLLM का उपयोग करें

  • फ्लैश अटेंशन सक्षम करें

  • मल्टी-GPU के लिए टेन्सर पैरेललिज़्म का उपयोग करें

खराब आउटपुट गुणवत्ता

  • टेम्परेचर समायोजित करें (0.1-0.9)

  • इनस्ट्रक्ट वेरिएंट का उपयोग करें

  • बेहतर सिस्टम प्रोम्प्ट्स

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

कीमतें प्रदाता और मांग के अनुसार बदलती हैं। जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड के लिए मार्केट (अक्सर 30-50% सस्ता)

  • भुगतान करें CLORE टोकन के साथ

  • विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

अगले कदम

  • vLLM - प्रोडक्शन सर्विंग

  • Ollama - आसान तैनाती

  • DeepSeek-V3 - सर्वश्रेष्ठ तर्कशीलता मॉडल

  • Qwen2.5 - बहुभाषी विकल्प

Last updated

Was this helpful?