मॉडल संगतता

Clore.ai के लिए AI मॉडल और GPU संगतता मैट्रिक्स

CLORE.AI पर कौन से AI मॉडल कौन-सी GPU पर चलते हैं इसकी पूरी गाइड।

circle-check

त्वरित संदर्भ

भाषा मॉडल (LLM)

मॉडल
पैरामीटर
न्यूनतम VRAM
अनुशंसित
क्वांटाइज़ेशन

Llama 3.2

1B

2GB

4GB

Q4, Q8, FP16

Llama 3.2

3B

4GB

6GB

Q4, Q8, FP16

Llama 3.1/3

8B

6GB

12GB

Q4, Q8, FP16

Mistral

7B

6GB

12GB

Q4, Q8, FP16

Qwen 2.5

7B

6GB

12GB

Q4, Q8, FP16

Qwen 2.5

14B

12GB

16GB

Q4, Q8

Qwen 2.5

32B

20GB

24GB

Q4, Q8

Llama 3.1

70B

40GB

48GB

Q4, Q8

Qwen 2.5

72B

48GB

80GB

Q4, Q8

Mixtral

8x7B

24GB

48GB

Q4

DeepSeek-V3

671B

320GB+

640GB

FP8

DeepSeek-R1

671B

320GB+

8x H100

FP8, रीजनिंग मॉडल

DeepSeek-R1-Distill

32B

20GB

2x A100 / RTX 5090

Q4/Q8

छवि जनरेशन मॉडल

मॉडल
न्यूनतम VRAM
अनुशंसित
नोट्स

SD 1.5

4GB

8GB

512x512 नेटिव

SD 2.1

6GB

8GB

768x768 नेटिव

SDXL

8GB

12GB

1024x1024 नेटिव

SDXL टर्बो

8GB

12GB

1-4 स्टेप्स

SD3.5 Large (8B)

16GB

24GB

1024x1024, उन्नत गुणवत्ता

FLUX.1 schnell

12GB

16GB

4 स्टेप्स, तेज

FLUX.1 dev

16GB

24GB

20-50 स्टेप्स

TRELLIS

16GB

24GB (RTX 4090)

छवियों से 3D जनरेशन

वीडियो जनरेशन मॉडल

मॉडल
न्यूनतम VRAM
अनुशंसित
आउटपुट

Stable Video Diffusion

16GB

24GB

4 सेकंड, 576x1024

AnimateDiff

12GB

16GB

2-4 सेकंड

LTX-Video

16GB

24GB (RTX 4090/3090)

5 सेकंड, 768x512, बहुत तेज

Wan2.1

24GB

40GB

5 सेकंड, 480p-720p

Hunyuan Video

40GB

80GB

5 सेकंड, 720p

OpenSora

24GB

40GB

परिवर्तनीय

ऑडियो मॉडल

मॉडल
न्यूनतम VRAM
अनुशंसित
कार्य

Whisper tiny

1GB

2GB

ट्रांसक्रिप्शन

Whisper base

1GB

2GB

ट्रांसक्रिप्शन

Whisper small

2GB

4GB

ट्रांसक्रिप्शन

Whisper medium

4GB

6GB

ट्रांसक्रिप्शन

Whisper large-v3

6GB

10GB

ट्रांसक्रिप्शन

Bark

8GB

12GB

टेक्स्ट-से-स्पीच

Stable Audio

8GB

12GB

म्यूज़िक जनरेशन

विजन और विज़न-लैंग्वेज मॉडल

मॉडल
न्यूनतम VRAM
अनुशंसित
कार्य

Llama 3.2 Vision 11B

12GB

16GB

इमेज समझ

Llama 3.2 Vision 90B

48GB

80GB

इमेज समझ

LLaVA 7B

8GB

12GB

विज़ुअल QA

LLaVA 13B

16GB

24GB

विज़ुअल QA

Qwen2.5-VL 7B

16GB

24GB (RTX 4090)

इमेज/वीडियो/दस्तावेज OCR

Qwen2.5-VL 72B

48GB

2x A100 80GB

अधिकतम VL क्षमता

फाइन-ट्यूनिंग और प्रशिक्षण उपकरण

उपकरण / विधि
न्यूनतम VRAM
अनुशंसित GPU
कार्य

Unsloth QLoRA 7B

12GB

RTX 3090 24GB

2x तेज QLoRA, कम VRAM

Unsloth QLoRA 13B

16GB

RTX 4090 24GB

तेज़ फाइन-ट्यूनिंग

LoRA (मानक)

12GB

RTX 3090

पैरामीटर-कुशल फाइन-ट्यूनिंग

फुल फाइन-ट्यून 7B

40GB

A100 40GB

अधिकतम गुणवत्ता प्रशिक्षण


विस्तृत संगतता तालिकाएँ

GPU द्वारा LLM

GPU
Max मॉडल (Q4)
Max मॉडल (Q8)
Max मॉडल (FP16)

RTX 3060 12GB

13B

7B

3B

RTX 3070 8GB

7B

3B

1B

RTX 3080 10GB

7B

7B

3B

RTX 3090 24GB

30B

13B

7B

RTX 4070 Ti 12GB

13B

7B

3B

RTX 4080 16GB

14B

7B

7B

RTX 4090 24GB

30B

13B

7B

RTX 5090 32GB

70B

14B

13B

A100 40GB

70B

30B

14B

A100 80GB

70B

70B

30B

H100 80GB

70B

70B

30B

GPU द्वारा इमेज जनरेशन

GPU
SD 1.5
SDXL
FLUX schnell
FLUX dev

RTX 3060 12GB

✅ 512

✅ 768

⚠️ 512*

RTX 3070 8GB

✅ 512

⚠️ 512

RTX 3080 10GB

✅ 512

✅ 768

⚠️ 512*

RTX 3090 24GB

✅ 768

✅ 1024

✅ 1024

⚠️ 768*

RTX 4070 Ti 12GB

✅ 512

✅ 768

⚠️ 512*

RTX 4080 16GB

✅ 768

✅ 1024

✅ 768

⚠️ 512*

RTX 4090 24GB

✅ 1024

✅ 1024

✅ 1024

✅ 1024

RTX 5090 32GB

✅ 1024

✅ 1024

✅ 1536

✅ 1536

A100 40GB

✅ 1024

✅ 1024

✅ 1024

✅ 1024

A100 80GB

✅ 2048

✅ 2048

✅ 1536

✅ 1536

*CPU ऑफलोड या घटाई गई बैच साइज के साथ

GPU द्वारा वीडियो जनरेशन

GPU
SVD
AnimateDiff
Wan2.1
Hunyuan

RTX 3060 12GB

⚠️ छोटा

RTX 3090 24GB

✅ 2-4s

⚠️ 480p

RTX 4090 24GB

✅ 4s

✅ 480p

⚠️ छोटा

RTX 5090 32GB

✅ 6s

✅ 720p

✅ 5s

A100 40GB

✅ 4s

✅ 720p

✅ 5s

A100 80GB

✅ 8s

✅ 720p

✅ 10s


क्वांटाइज़ेशन गाइड

क्वांटाइज़ेशन क्या है?

क्वांटाइज़ेशन मॉडल की प्रिसिशन घटाकर कम VRAM में फिट होने देता है:

फॉर्मेट
बिट्स
VRAM में कमी
गुणवत्ता ह्रास

FP32

32

बेसलाइन

कोई नहीं

FP16

16

50%

न्यूनतम

BF16

16

50%

न्यूनतम

FP8

8

75%

छोटी

Q8

8

75%

छोटी

Q6_K

6

81%

छोटी

Q5_K_M

5

84%

मध्यम

Q4_K_M

4

87%

मध्यम

Q3_K_M

3

91%

नोटिस योग्य

Q2_K

2

94%

महत्वपूर्ण

VRAM कैलकुलेटर

फ़ॉर्मूला: VRAM (GB) ≈ पैरामीटर (B) × प्रति पैरामीटर बाइट्स

मॉडल आकार
FP16
Q8
Q4

1B

2 GB

1 GB

0.5 GB

3B

6 GB

3 GB

1.5 GB

7B

14 GB

7 GB

3.5 GB

8B

16 GB

8 GB

4 GB

13B

26 GB

13 GB

6.5 GB

14B

28 GB

14 GB

7 GB

30B

60 GB

30 GB

15 GB

32B

64 GB

32 GB

16 GB

70B

140 GB

70 GB

35 GB

72B

144 GB

72 GB

36 GB

*KV कैश और ओवरहेड के लिए ~20% जोड़ें

उपयोग के मामले के अनुसार अनुशंसित क्वांटाइज़ेशन

उपयोग का मामला
अनुशंसित
क्यों

चैट/सामान्य

Q4_K_M

गति और गुणवत्ता का अच्छा संतुलन

कोडिंग

Q5_K_M+

कोड के लिए बेहतर सटीकता

क्रिएटिव राइटिंग

Q4_K_M

गति अधिक मायने रखती है

विश्लेषण

Q6_K+

उच्च सटीकता की आवश्यकता

प्रोडक्शन

FP16/BF16

अधिकतम गुणवत्ता


संदर्भ लंबाई बनाम VRAM

कैसे संदर्भ VRAM को प्रभावित करता है

प्रत्येक मॉडल की एक संदर्भ विंडो होती है (अधिकतम टोकन). लंबा संदर्भ = अधिक VRAM:

मॉडल
डिफ़ॉल्ट संदर्भ
अधिकतम संदर्भ
1K टोकन पर VRAM

Llama 3 8B

8K

128K

~0.3 GB

Llama 3 70B

8K

128K

~0.5 GB

Qwen 2.5 7B

8K

128K

~0.25 GB

Mistral 7B

8K

32K

~0.25 GB

Mixtral 8x7B

32K

32K

~0.4 GB

GPU द्वारा संदर्भ (Llama 3 8B Q4)

GPU
आरामदायक संदर्भ
अधिकतम संदर्भ

RTX 3060 12GB

16K

32K

RTX 3090 24GB

64K

96K

RTX 4090 24GB

64K

96K

RTX 5090 32GB

96K

128K

A100 40GB

96K

128K

A100 80GB

128K

128K


मल्टी-GPU कॉन्फ़िगरेशन

टेंसर पैरालेलिज़्म

एक मॉडल को कई GPUs में विभाजित करें:

कॉन्फ़िगरेशन
कुल VRAM
Max मॉडल (FP16)

2x RTX 3090

48GB

30B

2x RTX 4090

48GB

30B

2x RTX 5090

64GB

32B

4x RTX 5090

128GB

70B

2x A100 40GB

80GB

70B

4x A100 40GB

160GB

100B+

8x A100 80GB

640GB

DeepSeek-V3

vLLM मल्टी-GPU


विशिष्ट मॉडल गाइड

Llama 3.1 परिवार

वैरिएंट
पैरामीटर
न्यूनतम GPU
अनुशंसित सेटअप

Llama 3.2 1B

1B

किसी भी 4GB

RTX 3060

Llama 3.2 3B

3B

किसी भी 6GB

RTX 3060

Llama 3.1 8B

8B

RTX 3060

RTX 3090

Llama 3.1 70B

70B

A100 40GB

2x A100 40GB

Llama 3.1 405B

405B

8x A100 80GB

8x H100

Mistral/Mixtral परिवार

वैरिएंट
पैरामीटर
न्यूनतम GPU
अनुशंसित सेटअप

Mistral 7B

7B

RTX 3060

RTX 3090

Mixtral 8x7B

46.7B

RTX 3090

A100 40GB

Mixtral 8x22B

141B

2x A100 80GB

4x A100 80GB

Qwen 2.5 परिवार

वैरिएंट
पैरामीटर
न्यूनतम GPU
अनुशंसित सेटअप

Qwen 2.5 0.5B

0.5B

किसी भी 2GB

किसी भी 4GB

Qwen 2.5 1.5B

1.5B

किसी भी 4GB

RTX 3060

Qwen 2.5 3B

3B

किसी भी 6GB

RTX 3060

Qwen 2.5 7B

7B

RTX 3060

RTX 3090

Qwen 2.5 14B

14B

RTX 3090

RTX 4090

Qwen 2.5 32B

32B

RTX 4090

A100 40GB

Qwen 2.5 72B

72B

A100 40GB

A100 80GB

DeepSeek मॉडल

वैरिएंट
पैरामीटर
न्यूनतम GPU
अनुशंसित सेटअप

DeepSeek-Coder 6.7B

6.7B

RTX 3060

RTX 3090

DeepSeek-Coder 33B

33B

RTX 4090

A100 40GB

DeepSeek-V2-Lite

15.7B

RTX 3090

A100 40GB

DeepSeek-V3

671B

8x A100 80GB

8x H100

DeepSeek-R1

671B

8x A100 80GB

8x H100 (FP8)

DeepSeek-R1-Distill-Qwen-32B

32B

RTX 5090 32GB

2x A100 40GB

DeepSeek-R1-Distill-Qwen-7B

7B

RTX 3090 24GB

RTX 4090


समस्याओं का निवारण

"CUDA out of memory"

  1. क्वांटाइज़ेशन कम करें: Q8 → Q4

  2. संदर्भ लंबाई घटाएँ: max_tokens घटाएँ

  3. CPU ऑफलोड सक्षम करें: --cpu-offload या enable_model_cpu_offload()

  4. छोटा बैच उपयोग करें: batch_size=1

  5. विभिन्न GPU आज़माएँ: ज़्यादा VRAM चाहिए

"मॉडल बहुत बड़ा है"

  1. क्वांटाइज़्ड वर्ज़न उपयोग करें: GGUF Q4 मॉडल

  2. कई GPUs का उपयोग करें: टेंसर पैरालेलिज़्म

  3. CPU पर ऑफलोड करें: धीमा पर काम करता है पर चलता है

  4. छोटा मॉडल चुनें: 13B की बजाय 7B

"धीमी जनरेशन"

  1. GPU अपग्रेड करें: अधिक VRAM = कम ऑफलोडिंग

  2. तेज़ क्वांटाइज़ेशन उपयोग करें: Q4, Q8 से तेज है

  3. संदर्भ घटाएँ: छोटा = तेज

  4. फ्लैश अटेंशन सक्षम करें: --flash-attn

अगले कदम

Last updated

Was this helpful?