DeepSpeed प्रशिक्षण

Clore.ai GPUs पर DeepSpeed के साथ बड़े मॉडलों को कुशलतापूर्वक ट्रेन करें

Microsoft DeepSpeed के साथ बड़े मॉडल को कुशलतापूर्वक प्रशिक्षित करें।

circle-check

CLORE.AI पर किराये पर लेना

  1. GPU प्रकार, VRAM, और मूल्य के अनुसार फ़िल्टर करें

  2. चुनें ऑन-डिमांड (निश्चित दर) या स्पॉट (बिड प्राइस)

  3. अपना ऑर्डर कॉन्फ़िगर करें:

    • Docker इमेज चुनें

    • पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)

    • यदि आवश्यक हो तो एनवायरनमेंट वेरिएबल जोड़ें

    • स्टार्टअप कमांड दर्ज करें

  4. भुगतान चुनें: CLORE, BTC, या USDT/USDC

  5. ऑर्डर बनाएं और डिप्लॉयमेंट का इंतज़ार करें

अपने सर्वर तक पहुँचें

  • कनेक्शन विवरण में खोजें मेरे ऑर्डर

  • वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें

  • SSH: ssh -p <port> root@<proxy-address>

DeepSpeed क्या है?

DeepSpeed सक्षम करता है:

  • ऐसे मॉडल को प्रशिक्षित करना जो GPU मेमोरी में फिट नहीं होते

  • मल्टी-GPU और मल्टी-नोड प्रशिक्षण

  • ZeRO अनुकूलन (मेमोरी दक्षता)

  • मिक्स्ड प्रिसिजन प्रशिक्षण

ZeRO चरण

चरण
मेमोरी बचत
स्पीड

ZeRO-1

ऑप्टिमाइज़र स्टेट्स विभाजित

तेज़

ZeRO-2

+ ग्रैडिएंट्स विभाजित

संतुलित

ZeRO-3

+ पैरामीटर विभाजित

अधिकतम बचत

ZeRO-Infinity

CPU/NVMe ऑफलोड

सबसे बड़े मॉडल

त्वरित तैनाती

Docker इमेज:

पोर्ट:

कमांड:

इंस्टॉलेशन

बेसिक प्रशिक्षण

DeepSpeed कॉन्फ़िग

ds_config.json:

प्रशिक्षण स्क्रिप्ट

ZeRO स्टेज 2 कॉन्फ़िग

ZeRO स्टेज 3 कॉन्फ़िग

बड़े मॉडलों के लिए:

Hugging Face Transformers के साथ

Trainer इंटीग्रेशन

मल्टी-GPU प्रशिक्षण

लॉन्च कमांड

torchrun के साथ

मल्टी-नोड प्रशिक्षण

हॉस्टफाइल

hostfile:

लॉन्च

SSH सेटअप

मेमोरी-एफिशिएंट कॉन्फ़िग्स

24GB GPU पर 7B मॉडल

24GB GPU पर 13B मॉडल

ग्रैडिएंट चेकपॉइंटिंग

एक्टिवेशन को फिर से गणना करके मेमोरी बचाएं:

चेकपॉइंट्स सेव और लोड करें

सेव

लोड

HuggingFace फ़ॉर्मेट में सेव करें

मॉनिटरिंग

TensorBoard

Weights & Biases

सामान्य समस्याएँ

आउट ऑफ़ मेमोरी

धीमा प्रशिक्षण

  • CPU ऑफलोडिंग कम करें

  • बैच साइज बढ़ाएं

  • ZeRO स्टेज 3 की बजाय स्टेज 2 का उपयोग करें

NCCL त्रुटियाँ

प्रदर्शन सुझाव

सुझाव
प्रभाव

fp16 की बजाय bf16 का उपयोग करें

बेहतर स्थिरता

ग्रैडिएंट चेकपॉइंटिंग सक्षम करें

कम मेमोरी

बैच साइज को ट्यून करें

बेहतर थ्रूपुट

NVMe ऑफलोड का उपयोग करें

बड़े मॉडल

प्रदर्शन तुलना

मॉडल
GPUs
ZeRO स्टेज
प्रशिक्षण गति

7B

1x A100

ZeRO-3

~1000 टोकंस/सेकंड

7B

4x A100

ZeRO-2

~4000 टोकंस/सेकंड

13B

4x A100

ZeRO-3

~2000 टोकंस/सेकंड

70B

8x A100

ZeRO-3

~800 टोकंस/सेकंड

समस्याओं का निवारण

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

कीमतें प्रदाता और मांग के अनुसार बदलती हैं। जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड के लिए मार्केट (अक्सर 30-50% सस्ता)

  • भुगतान करें CLORE टोकन के साथ

  • विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

अगले कदम

Last updated

Was this helpful?