LLM को फाइन-ट्यून करें

Clore.ai GPUs पर कुशल तकनीकों के साथ कस्टम LLMs को फाइन-ट्यून करें

CLORE.AI GPUs पर कुशल फाइन-ट्यूनिंग तकनीकों का उपयोग करके अपनी कस्टम LLM को प्रशिक्षित करें।

circle-check

CLORE.AI पर किराये पर लेना

  1. GPU प्रकार, VRAM, और मूल्य के अनुसार फ़िल्टर करें

  2. चुनें ऑन-डिमांड (निश्चित दर) या स्पॉट (बिड प्राइस)

  3. अपना ऑर्डर कॉन्फ़िगर करें:

    • Docker इमेज चुनें

    • पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)

    • यदि आवश्यक हो तो एनवायरनमेंट वेरिएबल जोड़ें

    • स्टार्टअप कमांड दर्ज करें

  4. भुगतान चुनें: CLORE, BTC, या USDT/USDC

  5. ऑर्डर बनाएं और डिप्लॉयमेंट का इंतज़ार करें

अपने सर्वर तक पहुँचें

  • कनेक्शन विवरण में खोजें मेरे ऑर्डर

  • वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें

  • SSH: ssh -p <port> root@<proxy-address>

LoRA/QLoRA क्या है?

  • LoRA (लो-रैंक अनुकूलन) - पूरे मॉडल के बजाय छोटे एडाप्टर लेयर्स को ट्रेन करें

  • QLoRA - और भी कम VRAM के लिए क्वांटाइज़ेशन के साथ LoRA

  • एकल RTX 3090 पर 7B मॉडल ट्रेन करें

  • एकल A100 पर 70B मॉडल ट्रेन करें

आवश्यकताएँ

मॉडल
विधि
न्यूनतम VRAM
अनुशंसित

7B

QLoRA

12GB

RTX 3090

13B

QLoRA

20GB

RTX 4090

70B

QLoRA

48GB

A100 80GB

7B

फुल LoRA

24GB

RTX 4090

त्वरित तैनाती

Docker इमेज:

पोर्ट:

कमांड:

अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

  1. जाएँ मेरे ऑर्डर पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की बजाय localhost नीचे दिए उदाहरणों में।

डेटासेट की तैयारी

चैट प्रारूप (अनुशंसित)

निर्देश प्रारूप

Alpaca प्रारूप

समर्थित आधुनिक मॉडल (2025)

मॉडल
HF ID
न्यूनतम VRAM (QLoRA)

Llama 3.1 / 3.3 8B

meta-llama/Llama-3.1-8B-Instruct

12GB

Qwen 2.5 7B / 14B

Qwen/Qwen2.5-7B-Instruct

12GB / 20GB

DeepSeek-R1-Distill (7B/8B)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

12GB

Mistral 7B v0.3

mistralai/Mistral-7B-Instruct-v0.3

12GB

Gemma 2 9B

google/gemma-2-9b-it

14GB

Phi-4 14B

microsoft/phi-4

20GB

QLoRA फाइन-ट्यूनिंग स्क्रिप्ट

PEFT 0.14+, Flash Attention 2, DoRA सपोर्ट और Qwen2.5 / DeepSeek-R1 अनुकूलता के साथ आधुनिक उदाहरण:

Flash Attention 2

Flash Attention 2 VRAM उपयोग को कम करता है और प्रशिक्षण की गति को काफी बढ़ाता है। Ampere+ GPU (RTX 3090, RTX 4090, A100) आवश्यक है।

सेटिंग
VRAM (7B)
स्पीड

मानक attention (fp16)

~22GB

मूलभूत

Flash Attention 2 (bf16)

~16GB

+30%

Flash Attention 2 + QLoRA

~12GB

+30%

DoRA (वज़न-विघटित LoRA)

DoRA (PEFT >= 0.14) प्री-ट्रेंड वज़नों को परिमाण और दिशा घटकों में विभाजित करता है। यह फाइन-ट्यूनिंग गुणवत्ता में सुधार करता है, विशेष रूप से छोटे रैंकों के लिए।

Qwen2.5 & DeepSeek-R1-Distill उदाहरण

Qwen2.5 फाइन-ट्यूनिंग

DeepSeek-R1-Distill फाइन-ट्यूनिंग

DeepSeek-R1-Distill मॉडल (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) तर्क-केंद्रित हैं। अपने डोमेन के लिए उनकी चेन-ऑफ-थॉट शैली अनुकूलित करने के लिए फाइन-ट्यून करें।

Axolotl का उपयोग करना (आसान)

Axolotl YAML कॉन्फ़िग्स के साथ फाइन-ट्यूनिंग को सरल बनाता है:

Axolotl कॉन्फ़िग उदाहरण

चैट मॉडल

कोड मॉडल

LoRA वज़न मर्ज करना

ट्रेनिंग के बाद, LoRA को बेस मॉडल में वापस मर्ज करें:

GGUF में परिवर्तित करें

llama.cpp/Ollama के साथ उपयोग के लिए:

प्रशिक्षण की निगरानी

Weights & Biases

TensorBoard

सर्वोत्तम प्रथाएँ

हाइपरपैरामीटर्स

पैरामीटर
7B मॉडल
13B मॉडल
70B मॉडल

batch_size

4

2

1

grad_accum

4

8

16

lr

2e-4

1e-4

5e-5

lora_r

64

32

16

epochs

3

2-3

1-2

डेटासेट आकार

  • न्यूनतम: 1,000 उदाहरण

  • अच्छा: 10,000+ उदाहरण

  • गुणवत्ता > संख्या

ओवरफिटिंग से बचना

मल्टी-GPU प्रशिक्षण

DeepSpeed कॉन्फ़िग:

सहेजना और निर्यात करना

समस्याओं का निवारण

OOM त्रुटियाँ

  • बैच साइज घटाएँ

  • ग्रेडिएंट एक्यूम्युलेशन बढ़ाएँ

  • उपयोग करें gradient_checkpointing=True

  • lora_r कम करें

ट्रेनिंग लॉस घट नहीं रहा

  • डेटा प्रारूप जाँचें

  • learning rate बढ़ाएँ

  • डेटा समस्याओं के लिए जाँच करें

NaN लॉस

  • learning rate घटाएँ

  • fp16 के बजाय fp32 का उपयोग करें

  • खराब/क्षतिग्रस्त डेटा की जाँच करें

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

कीमतें प्रदाता और मांग के अनुसार बदलती हैं। जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड के लिए मार्केट (अक्सर 30-50% सस्ता)

  • भुगतान करें CLORE टोकन के साथ

  • विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

Last updated

Was this helpful?