मल्टी-GPU सेटअप

Clore.ai पर कई GPUs में बड़े AI मॉडल चलाएँ

CLORE.AI पर कई GPUs में बड़े AI मॉडल चलाएँ।

circle-check

आपको कब मल्टी-GPU की आवश्यकता होती है?

मॉडल आकार
एकल GPU विकल्प
मल्टी-GPU विकल्प

≤13B

RTX 3090 (Q4)

ज़रूरत नहीं

30B

RTX 4090 (Q4)

2x RTX 3090

70B

A100 40GB (Q4)

2x RTX 4090

70B FP16

-

2x A100 80GB

100B+

-

4x A100 80GB

405B

-

8x A100 80GB


मल्टी-GPU अवधारणाएँ

टेनसर पैरेललिज्म (TP)

मॉडल की लेयर्स को GPUs में विभाजित करें। इनफेरेंस के लिए सर्वोत्तम।

GPU 0: लेयर्स 1-20
GPU 1: लेयर्स 21-40

फायदे: कम विलंबता, सरल सेटअप नुकसान: उच्च-गति इंटरकनेक्ट की आवश्यकता

पाइपलाइन पैरेललिज्म (PP)

विभिन्न बैचों को अलग-अलग GPUs पर प्रोसेस करें।

फायदे: उच्च थ्रूपुट नुकसान: उच्च विलंबता, अधिक जटिल

डाटा पैरेललिज्म (DP)

एक ही मॉडल कई GPUs पर, अलग डेटा के साथ।

फायदे: सरल, रैखिक स्केलिंग नुकसान: प्रत्येक GPU को पूरा मॉडल चाहिए


LLM मल्टी-GPU सेटअप

vLLM (सिफारिश की गई)

2 GPUs:

4 GPUs:

8 GPUs (405B के लिए):

Ollama मल्टी-GPU

Ollama उपलब्ध होने पर स्वचालित रूप से कई GPUs का उपयोग करता है:

विशिष्ट GPUs पर सीमित करें:

Text Generation Inference (TGI)

llama.cpp


इमेज जनरेशन मल्टी-GPU

ComfyUI

ComfyUI विभिन्न मॉडल्स को अलग-अलग GPUs पर ऑफलोड कर सकता है:

VAE को अलग GPU पर चलाएँ:

Stable Diffusion WebUI

webui-user.sh में मल्टी-GPU सक्षम करें:

FLUX मल्टी-GPU


ट्रेनिंग मल्टी-GPU

PyTorch डिस्ट्रिब्यूटेड

लॉन्च:

DeepSpeed

लॉन्च:

Accelerate (HuggingFace)

कॉन्फ़िगर करें:

Kohya ट्रेनिंग (LoRA)


GPU चयन

उपलब्ध GPUs जांचें

विशिष्ट GPUs चुनें

पर्यावरण वेरिएबल:

Python में:


प्रदर्शन अनुकूलन

कनेक्शन
बैंडविड्थ
उत्तम हेतु

NVLink

600 GB/s

टेंसर पैरालेलिज़्म

PCIe 4.0

32 GB/s

डेटा पैरेललिज्म

PCIe 5.0

64 GB/s

मिक्स्ड वर्कलोड़

NVLink स्थिति जांचें:

इष्टतम कॉन्फ़िगरेशन

GPUs
TP आकार
PP आकार
नोट्स

2

2

1

सरल टेनसर पैरेलल

4

4

1

NVLink आवश्यक

4

2

2

PCIe-अनुकूल

8

8

1

पूर्ण टेनसर पैरेलल

8

4

2

मिक्स्ड पैरेललिज्म

मेमोरी संतुलन

समान विभाजन (डिफ़ॉल्ट):

कस्टम विभाजन (असमान GPUs):


समस्याओं का निवारण

"NCCL त्रुटि"

"GPU X पर मेमोरी समाप्त"

"मल्टी-GPU प्रदर्शन धीमा"

  1. NVLink कनेक्टिविटी जांचें

  2. टेनसर पैरेलल आकार घटाएँ

  3. इसके बजाय पाइपलाइन पैरेललिज्म का उपयोग करें

  4. CPU बॉटलनेक जांचें

"GPUs नहीं मिले"


लागत अनुकूलन

जब मल्टी-GPU उपयोगी होता है

परिदृश्य
एकल GPU
मल्टी-GPU
विजेता

70B कभी-कभार उपयोग

A100 80GB ($0.25/घं)

2x RTX 4090 ($0.20/घं)

मल्टी

70B उत्पादन

A100 40GB ($0.17/घं)

2x A100 40GB ($0.34/घं)

एकल (Q4)

7B ट्रेनिंग

RTX 4090 ($0.10/घं)

2x RTX 4090 ($0.20/घं)

समय पर निर्भर करता है

लागत-प्रभावी कॉन्फ़िगरेशन

उपयोग का मामला
कॉन्फ़िगरेशन
~लागत/घं

70B इनफेरेंस

2x RTX 3090

$0.12

70B तेज इनफेरेंस

2x A100 40GB

$0.34

70B FP16

2x A100 80GB

$0.50

13B ट्रेनिंग

2x RTX 4090

$0.20


उदाहरण कॉन्फ़िगरेशन

70B चैट सर्वर

DeepSeek-V3 (671B)

इमेज + LLM पाइपलाइन


अगले कदम

Last updated

Was this helpful?