Mistral & Mixtral
Clore.ai GPUs पर Mistral और Mixtral मॉडल चलाएँ
CLORE.AI पर किराये पर लेना
अपने सर्वर तक पहुँचें
मॉडल अवलोकन
मॉडल
पैरामीटर
VRAM
विशेषता
त्वरित तैनाती
अपनी सेवा तक पहुँचना
इंस्टॉलेशन विकल्प
Ollama का उपयोग करना (सबसे आसान)
vLLM का उपयोग करना
Transformers का उपयोग करना
Transformers के साथ Mistral-7B
Mixtral-8x7B
क्वांटाइज़्ड मॉडल (कम VRAM)
4-बिट क्वांटाइज़ेशन
GGUF के साथ llama.cpp
vLLM सर्वर (प्रोडक्शन)
OpenAI-समकक्ष API
स्ट्रीमिंग
फंक्शन कॉलिंग
Gradio इंटरफ़ेस
प्रदर्शन तुलना
थ्रूपुट (टोकन/सेकंड)
मॉडल
RTX 3060
RTX 3090
RTX 4090
A100 40GB
पहले टोकन तक का समय (TTFT)
मॉडल
RTX 3090
RTX 4090
A100
कॉन्टेक्स्ट लंबाई बनाम VRAM (Mistral-7B)
संदर्भ
FP16
Q8
Q4
VRAM आवश्यकताएँ
मॉडल
FP16
8-बिट
4-बिट
उपयोग के मामले
कोड जनरेशन
डेटा विश्लेषण
क्रिएटिव राइटिंग
समस्याओं का निवारण
आउट ऑफ़ मेमोरी
धीमा जनरेशन
खराब आउटपुट गुणवत्ता
लागत अनुमान
GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र
अगले कदम
Last updated
Was this helpful?