LitGPT

LitGPT PyTorch Lightning पर निर्मित 20+ बड़े भाषा मॉडलों के प्रीट्रेनिंग, फाइनट्यूनिंग और डिप्लॉयमेंट के लिए एक उच्च-प्रदर्शन लाइब्रेरी है। 12K+ GitHub स्टार्स के साथ, यह उन इंजीनियरों के लिए एक पसंदीदा टूलकिट है जिन्हें HuggingFace Transformers के abstraction ओवरहेड के बिना साफ़, हैक करने योग्य LLM ट्रेनिंग कोड चाहिए।

LitGPT में प्रत्येक मॉडल ~1,000 पंक्तियों का साफ़ PyTorch है — न तो 10 स्तर गहरी इनहेरिटेंस चेनें, न ही कोई जादू। आप दोपहर में Llama 3 इम्प्लीमेंटेशन को शुरू से अंत तक पढ़ सकते हैं और आत्मविश्वास से संशोधन कर सकते हैं।

circle-check

LitGPT क्या है?

LitGPT एकीकृत ट्रेनिंग इंटरफेस के साथ राज्य-के-कलाकार (state-of-the-art) LLMs के प्रोडक्शन-रेडी इम्प्लीमेंटेशन प्रदान करता है:

  • 20+ समर्थित मॉडल — Llama 3, Gemma 2, Mistral, Phi-3, Falcon, StableLM, और अधिक

  • शून्य से प्रीट्रेन करें — Flash Attention, FSDP, और gradient checkpointing के साथ पूर्ण प्रीट्रेनिंग

  • प्रभावी रूप से फाइनट्यून करें — पूर्ण फाइनट्यूनिंग, LoRA, QLoRA, और Adapter विधियाँ

  • विश्वास के साथ सर्व करें — क्वांटाइज़ेशन के साथ बिल्ट-इन इन्फरेंस सर्वर

  • मल्टी-GPU समर्थन — बॉक्स से बाहर DDP, FSDP, टेंसर पैरेललिज्म

  • मेमोरी प्रभावी — 4-बिट क्वांटाइज़ेशन, ग्रेडिएंट चेकपॉइंटिंग, एक्टिवेशन चेकपॉइंटिंग


सर्वर आवश्यकताएँ

घटक
न्यूनतम
अनुशंसित

GPU

RTX 3090 (24 GB)

A100 80 GB / H100

वीरैम (VRAM)

16 GB (7B LoRA)

80 GB+ (70B फुल)

रैम

32 GB

64 GB+

CPU

8 कोर

16+ कोर

स्टोरेज

100 GB

500 GB+

ऑपरेटिंग सिस्टम

Ubuntu 20.04+

Ubuntu 22.04

Python

3.10+

3.11

CUDA

11.8+

12.1+

कार्य के अनुसार VRAM आवश्यकताएँ

कार्य
मॉडल
वीरैम (VRAM)

इन्फरेंस (4-बिट)

Llama-3 8B

~6 GB

LoRA फाइनट्यून

Llama-3 8B

~16 GB

फुल फाइनट्यून

Llama-3 8B

~80 GB

LoRA फाइनट्यून

Llama-3 70B

~48 GB (2×A100)

फुल फाइनट्यून

Llama-3 70B

~640 GB (8×A100)

QLoRA फाइनट्यून

Llama-3 8B

~8 GB


पोर्ट्स

पोर्ट
सेवा
नोट्स

22

SSH

टर्मिनल एक्सेस और फ़ाइल ट्रांसफ़र

8000

LitGPT इन्फरेंस सर्वर

मॉडल सर्विंग के लिए REST API


Docker के साथ क्विक स्टार्ट


Clore.ai पर इंस्टॉलेशन

चरण 1 — एक सर्वर किराए पर लें

  1. फ़िल्टर करें VRAM ≥ 24 GB (RTX 3090 या बेहतर)

  2. एक चुनें PyTorch या CUDA 12.1 बेस इमेज

  3. पोर्ट खोलें 22 और 8000 अपने ऑर्डर सेटिंग्स में

  4. चुनें स्टोरेज ≥ 200 GB मॉडल वेट्स के लिए

चरण 2 — SSH के द्वारा कनेक्ट करें

चरण 3 — LitGPT इंस्टॉल करें

चरण 4 — इंस्टॉलेशन सत्यापित करें

अपेक्षित आउटपुट:


मॉडल डाउनलोड करना

LitGPT Hugging Face से मॉडल डाउनलोड करता है:

HuggingFace टोकन सेट करें


इन्फरेंस (चैट और जनरेट)


फाइनट्यूनिंग

LoRA फाइनट्यूनिंग (सिफारिश की जाती है)

LoRA बेस मॉडल को फ्रीज़ रखते हुए एक छोटे सेट के एडाप्टर पैरामीटर ट्रेन करता है (आमतौर पर कुल वेट्स का 0.1–1%)। Llama 3 8B LoRA 10K उदाहरणों पर RTX 3090 पर ~2 घंटे लेता है, r=16.

QLoRA (4-बिट + LoRA)

सीमित VRAM पर बड़े मॉडलों को फाइनट्यून करने के लिए QLoRA का उपयोग करें। Llama 3 8B एकल RTX 3090 (24 GB) पर फिट हो जाता है:

पूर्ण फाइनट्यूनिंग

मल्टी-GPU ट्रेनिंग


मॉडल सर्विंग (REST API)

Python क्लाइंट


शून्य से प्रीट्रेनिंग

अपने स्वयं के डेटा पर शून्य से एक कस्टम LLM ट्रेनिंग के लिए:


मॉडल कनवर्ट करना और निर्यात करना


मॉडल का मूल्यांकन करना


Clore.ai GPU सिफारिशें

LitGPT तीन अलग-लग वर्कलोड कवर करता है — इन्फरेंस, LoRA फाइनट्यूनिंग, और फुल प्रीट्रेनिंग — प्रत्येक के अलग GPU आवश्यकताएँ हैं।

वर्कलोड
GPU
वीरैम (VRAM)
नोट्स

इन्फरेंस / चैट (7–8B मॉडल)

RTX 3090

24 GB

bf16 में Llama 3 8B फिट होता है; ~95 टोक/सेक जेनरेशन

LoRA फाइनट्यून (7–8B मॉडल)

RTX 3090

24 GB

बजट विकल्प; QLoRA VRAM को 10 GB से कम बनाए रखता है

LoRA फाइनट्यून (7–8B), तेज़ इटरेशन

RTX 4090

24 GB

~3090 की तुलना में ~35% तेज़; 2 घंटे के काम को ~1.4 घंटे तक घटाता है

फुल फाइनट्यून (7B) या QLoRA (70B)

A100 40 GB

40 GB

40 GB 7B फुल-प्रिसिशन या 70B 4-बिट फिट कर सकता है

फुल फाइनट्यून (13B+) या प्रीट्रेन रनस के लिए

A100 80 GB

80 GB

उच्चतम थ्रूपुट; 8B पर ~2,800 टोक/सेक ट्रेनिंग

अधिकांश उपयोगकर्ताओं के लिए सिफारिश: RTX 3090 जोड़ी (2×24 GB = FSDP के साथ 48 GB प्रभावी)। QLoRA 70B मॉडलों पर संभालता है, या टेंसर पैरेललिज्म के साथ 7B मॉडलों पर फुल फाइनट्यून। Clore.ai पर लागत: दो 3090s के लिए लगभग $0.25/घंटा।

प्रीट्रेनिंग या >70B फाइनट्यूनिंग के लिए: FSDP के साथ 4×A100 80GB का उपयोग करें। LitGPT का FSDP इंटीग्रेशन शार्डिंग को पारदर्शी रूप से संभालता है — बस पास करें --devices 4 --strategy fsdp.


समस्या निवारण

CUDA मेमोरी खत्म (Out of Memory)

डाउनलोड विफल / HuggingFace 401

ट्रेनिंग लॉस घटता नहीं है

सर्वर पोर्ट 8000 पहुंच योग्य नहीं

मल्टी-GPU ट्रेनिंग हैंग हो रही है


उपयोगी लिंक

Last updated

Was this helpful?