LLM को फाइन-ट्यून करें

Clore.ai GPUs पर कुशल तकनीकों के साथ कस्टम LLMs का फाइन-ट्यून करें

CLORE.AI GPUs पर कुशल फाइन-ट्यूनिंग तकनीकों का उपयोग करके अपना कस्टम LLM ट्रेन करें।

circle-check

CLORE.AI पर किराये पर लेना

  1. GPU प्रकार, VRAM और कीमत द्वारा फ़िल्टर करें

  2. चुनें ऑन-डिमांड (निश्चित दर) या स्पॉट (बोली मूल्य)

  3. अपना ऑर्डर कॉन्फ़िगर करें:

    • Docker इमेज चुनें

    • पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)

    • यदि आवश्यक हो तो एनवायरनमेंट वेरिएबल जोड़ें

    • स्टार्टअप कमांड दर्ज करें

  4. भुगतान चुनें: CLORE, BTC, या USDT/USDC

  5. ऑर्डर बनाएं और डिप्लॉयमेंट का इंतजार करें

अपने सर्वर तक पहुँचें

  • कनेक्शन विवरण ढूंढें मेरे ऑर्डर्स

  • वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें

  • SSH: ssh -p <port> root@<proxy-address>

LoRA/QLoRA क्या है?

  • LoRA (लो-रैंक अनुकूलन) - पूरे मॉडल के बजाय छोटे एडेप्टर लेयर ट्रेन करें

  • QLoRA - और भी कम VRAM के लिए क्वांटाइज़ेशन के साथ LoRA

  • सिंगल RTX 3090 पर 7B मॉडल ट्रेन करें

  • सिंगल A100 पर 70B मॉडल ट्रेन करें

आवश्यकताएँ

मॉडल
विधि
न्यूनतम VRAM
सिफारिश

7B

QLoRA

12GB

RTX 3090

13B

QLoRA

20GB

RTX 4090

70B

QLoRA

48GB

A100 80GB

7B

फुल LoRA

24GB

RTX 4090

क्विक डिप्लॉय

Docker इमेज:

पोर्ट्स:

कमान्ड:

आपकी सर्विस तक पहुँच

डिप्लॉयमेंट के बाद, अपना ढूंढें http_pub URL में मेरे ऑर्डर्स:

  1. पर जाएँ मेरे ऑर्डर्स पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की जगह localhost नीचे दिए गए उदाहरणों में।

डेटासेट तैयार करना

चैट फ़ॉर्मेट (अनुशंसित)

इंस्ट्रक्शन फ़ॉर्मेट

Alpaca फ़ॉर्मेट

समर्थित आधुनिक मॉडल (2025)

मॉडल
HF ID
न्यूनतम VRAM (QLoRA)

Llama 3.1 / 3.3 8B

meta-llama/Llama-3.1-8B-Instruct

12GB

Qwen 2.5 7B / 14B

Qwen/Qwen2.5-7B-Instruct

12GB / 20GB

DeepSeek-R1-Distill (7B/8B)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

12GB

Mistral 7B v0.3

mistralai/Mistral-7B-Instruct-v0.3

12GB

Gemma 2 9B

google/gemma-2-9b-it

14GB

Phi-4 14B

microsoft/phi-4

20GB

QLoRA फाइन-ट्यूनिंग स्क्रिप्ट

PEFT 0.14+, Flash Attention 2, DoRA समर्थन, और Qwen2.5 / DeepSeek-R1 अनुकूलता के साथ आधुनिक उदाहरण:

Flash Attention 2

Flash Attention 2 VRAM उपयोग को घटाता है और ट्रेनिंग को काफी तेज़ करता है। इसके लिए Ampere+ GPU (RTX 3090, RTX 4090, A100) आवश्यक है।

सेटिंग
VRAM (7B)
गति

मानक अटेंशन (fp16)

~22GB

बेसलाइन

Flash Attention 2 (bf16)

~16GB

+30%

Flash Attention 2 + QLoRA

~12GB

+30%

DoRA (Weight-Decomposed LoRA)

DoRA (PEFT >= 0.14) प्री-ट्रेन्ड वज़न को परिमाण और दिशा घटकों में विभाजित करता है। यह फाइन-ट्यूनिंग की गुणवत्ता में सुधार करता है, विशेष रूप से छोटे रैंक्स के लिए।

Qwen2.5 & DeepSeek-R1-Distill उदाहरण

Qwen2.5 फाइन-ट्यूनिंग

DeepSeek-R1-Distill फाइन-ट्यूनिंग

DeepSeek-R1-Distill मॉडल (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) तर्क-केन्द्रित हैं। उनके chain-of-thought स्टाइल को अपने डोमेन के लिए अनुकूलित करने के लिए फाइन-ट्यून करें।

Axolotl का उपयोग (आसान तरीका)

Axolotl YAML कॉन्फ़िग के साथ फाइन-ट्यूनिंग को सरल बनाता है:

Axolotl कॉन्फ़िग उदाहरण

चैट मॉडल

कोड मॉडल

LoRA वज़न मर्ज करना

ट्रेनिंग के बाद, LoRA को बेस मॉडल में मर्ज करें:

GGUF में कन्वर्ट करें

llama.cpp/Ollama के साथ उपयोग के लिए:

ट्रेनिंग की निगरानी

Weights & Biases

TensorBoard

सर्वोत्तम प्रथाएँ

हाइपरपैरामीٹر

पैरामीटर
7B मॉडल
13B मॉडल
70B मॉडल

batch_size

4

2

1

grad_accum

4

8

16

lr

2e-4

1e-4

5e-5

lora_r

64

32

16

epochs

3

2-3

1-2

डेटासेट आकार

  • न्यूनतम: 1,000 उदाहरण

  • अच्छा: 10,000+ उदाहरण

  • गुणवत्ता > मात्रा

ओवरफिटिंग से बचना

मल्टी-GPU ट्रेनिंग

DeepSpeed कॉन्फ़िग:

सहेजना और एक्सपोर्ट करना

ट्रबलशूटिंग

OOM त्रुटियाँ

  • बैच आकार घटाएँ

  • ग्रेडिएंट एक्यूम्यूलेशन बढ़ाएँ

  • उपयोग करें gradient_checkpointing=True

  • lora_r घटाएँ

ट्रेनिंग लॉस घट नहीं रहा है

  • डेटा प्रारूप की जांच करें

  • लर्निंग रेट बढ़ाएँ

  • डेटा समस्याओं की जाँच करें

NaN लॉस

  • लर्निंग रेट घटाएँ

  • fp16 के बजाय fp32 का उपयोग करें

  • करप्टेड डेटा के लिए जाँच करें

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

GPU
घंटा दर
दैनिक दर
4-घंटे सत्र

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

कीमतें प्रदाता और मांग के अनुसार भिन्न होती हैं। जांचें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

📚 संदर्भ: क्लाउड GPU पर LLaMA 3 को फाइन-ट्यून करने का चरण-दर-चरण मार्गदर्शिकाarrow-up-right

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड्स के लिए बाजार (अक्सर 30-50% सस्ता)

  • इसके साथ भुगतान करें CLORE टोकन

  • विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

Last updated

Was this helpful?