अवलोकन

इन्फरेंस और चैट एप्लिकेशन के लिए CLORE.AI GPUs पर बड़े भाषा मॉडल (LLMs) चलाएं।

लोकप्रिय टूल

उपकरण
उपयोग मामला
कठिनाई

सबसे आसान LLM सेटअप

शुरुआती

ChatGPT जैसी इंटरफ़ेस

शुरुआती

उच्च-थ्रूपुट production सर्विंग

मध्यम

कुशल GGUF इन्फरेंस

आसान

पूर्ण-विशेषताओं वाला चैट UI

आसान

सबसे तेज़ EXL2 इन्फरेंस

मध्यम

OpenAI-संगत API

मध्यम

तेज़ संरचित जेनरेशन

मध्यम

HuggingFace सर्विंग समाधान

मध्यम

MMlab सर्विंग टूलकिट

मध्यम

अतिरिक्त विशेषताओं के साथ vLLM फोर्क

मध्यम

मशीन लर्निंग कंपाइलेशन

कठिन

एकीकृत API प्रॉक्सी

मध्यम

स्पार्स मॉडल इन्फरेंस

कठिन

Rust-आधारित इन्फरेंस इंजन

मध्यम

मॉडल गाइड्स

नवीनतम और सर्वश्रेष्ठ मॉडल

मॉडल
पैरामीटर
उपयुक्तता

671B MoE

तर्क, कोड, गणित

671B MoE

उन्नत तर्क

शिघ्र घोषणा (TBA)

अगली पीढ़ी DeepSeek

0.5B-72B

बहुभाषी, कोड

शिघ्र घोषणा (TBA)

नवीनतम Qwen जनरेशन

70B

Meta का नवीनतम 70B

शिघ्र घोषणा (TBA)

Scout और Maverick वेरिएंट

विशेषीकृत मॉडल

मॉडल
पैरामीटर
उपयुक्तता

6.7B-33B

कोड जेनरेशन

7B-34B

कोड पूरा करना

4.7B

तेज़ चीनी/अंग्रेज़ी

शिघ्र घोषणा (TBA)

Zhipu AI नवीनतम

शिघ्र घोषणा (TBA)

Moonshot AI मॉडल

1T

विशाल ओपन-सोर्स LLM

24B

Liquid AI मॉडल

शिघ्र घोषणा (TBA)

तेज़ इन्फरेंस मॉडल

कुशल मॉडल

मॉडल
पैरामीटर
उपयुक्तता

2B-27B

कुशल इन्फरेंस

शिघ्र घोषणा (TBA)

Google का नवीनतम कॉम्पैक्ट

14B

छोटा पर सक्षम

7B / 8x7B

सामान्य उद्देश्य

675B MoE

एंटरप्राइज़-ग्रेड

शिघ्र घोषणा (TBA)

कुशल Mistral वेरिएंट

GPU सिफारिशें

मॉडल आकार
न्यूनतम GPU
अनुशंसित

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

क्वांटाइजेशन गाइड

फ़ॉर्मेट
VRAM उपयोग
गुणवत्ता
स्पीड

Q2_K

सबसे कम

कमज़ोर

सबसे तेज़

Q4_K_M

निम्न

अच्छा

तेज़

Q5_K_M

मध्यम

महान

मध्यम

Q8_0

उच्च

उत्कृष्ट

धीमा

FP16

अत्यधिक

सबसे अच्छा

सबसे धीमा

यह भी देखें

Last updated

Was this helpful?