अवलोकन

इन्फरेंस और चैट एप्लिकेशन के लिए CLORE.AI GPUs पर बड़े भाषा मॉडल (LLMs) चलाएं।

लोकप्रिय टूल

उपकरण

उपयोग मामला

कठिनाई

सबसे आसान LLM सेटअप

शुरुआती

ChatGPT जैसी इंटरफ़ेस

शुरुआती

उच्च-थ्रूपुट production सर्विंग

मध्यम

Llama.cpp सर्वर

कुशल GGUF इन्फरेंस

आसान

Text Generation WebUI

पूर्ण-विशेषताओं वाला चैट UI

आसान

सबसे तेज़ EXL2 इन्फरेंस

मध्यम

OpenAI-संगत API

मध्यम

तेज़ संरचित जेनरेशन

मध्यम

Text Generation Inference (TGI)

HuggingFace सर्विंग समाधान

मध्यम

MMlab सर्विंग टूलकिट

मध्यम

Aphrodite Engine

अतिरिक्त विशेषताओं के साथ vLLM फोर्क

मध्यम

मशीन लर्निंग कंपाइलेशन

कठिन

एकीकृत API प्रॉक्सी

मध्यम

स्पार्स मॉडल इन्फरेंस

कठिन

Rust-आधारित इन्फरेंस इंजन

मध्यम

मॉडल गाइड्स

नवीनतम और सर्वश्रेष्ठ मॉडल

मॉडल

पैरामीटर

उपयुक्तता

671B MoE

तर्क, कोड, गणित

671B MoE

उन्नत तर्क

शिघ्र घोषणा (TBA)

अगली पीढ़ी DeepSeek

Qwen2.5

0.5B-72B

बहुभाषी, कोड

शिघ्र घोषणा (TBA)

नवीनतम Qwen जनरेशन

70B

Meta का नवीनतम 70B

शिघ्र घोषणा (TBA)

Scout और Maverick वेरिएंट

विशेषीकृत मॉडल

मॉडल

पैरामीटर

उपयुक्तता

DeepSeek Coder

6.7B-33B

कोड जेनरेशन

7B-34B

कोड पूरा करना

4.7B

तेज़ चीनी/अंग्रेज़ी

GLM-5

शिघ्र घोषणा (TBA)

Zhipu AI नवीनतम

शिघ्र घोषणा (TBA)

Moonshot AI मॉडल

1T

विशाल ओपन-सोर्स LLM

24B

Liquid AI मॉडल

शिघ्र घोषणा (TBA)

तेज़ इन्फरेंस मॉडल

कुशल मॉडल

मॉडल

पैरामीटर

उपयुक्तता

2B-27B

कुशल इन्फरेंस

शिघ्र घोषणा (TBA)

Google का नवीनतम कॉम्पैक्ट

14B

छोटा पर सक्षम

Mistral/Mixtral

7B / 8x7B

सामान्य उद्देश्य

Mistral Large 3

675B MoE

एंटरप्राइज़-ग्रेड

Mistral Small 3.1

शिघ्र घोषणा (TBA)

कुशल Mistral वेरिएंट

GPU सिफारिशें

मॉडल आकार

न्यूनतम GPU

अनुशंसित

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

क्वांटाइजेशन गाइड

फ़ॉर्मेट

VRAM उपयोग

गुणवत्ता

स्पीड

Q2_K

सबसे कम

कमज़ोर

सबसे तेज़

Q4_K_M

निम्न

अच्छा

तेज़

Q5_K_M

मध्यम

महान

मध्यम

Q8_0

उच्च

उत्कृष्ट

धीमा

FP16

अत्यधिक

सबसे अच्छा

सबसे धीमा

यह भी देखें

PreviousTroubleshooting NextOllama

Last updated 18 days ago

Was this helpful?