LLaMA-Factory

LLaMA-Factory का उपयोग करके LoRA/QLoRA और वेब UI के साथ Clore.ai GPUs पर 100+ LLMs को फाइन-ट्यून करें

LLaMA-Factory सबसे व्यापक ओपन-सोर्स फाइन-ट्यूनिंग फ्रेमवर्क है, जो सभी LLaMA वेरिएंट्स, Qwen, Mistral, Phi, Falcon, ChatGLM और अन्य सहित 100+ भाषा मॉडलों का समर्थन करता है। यह LoRA, QLoRA, पूर्ण फाइन-ट्यूनिंग, RLHF, DPO और PPO प्रदान करता है — सभी एक सहज वेब इंटरफेस (LLaMA Board) या CLI के माध्यम से। CLORE.AI के ऑन-डिमांड GPU सर्वर इसे क्लाउड प्रदाताओं की लागत के एक छोटे हिस्से पर फाइन-ट्यूनिंग जॉब लॉन्च करने के लिए एक आदर्श प्लेटफ़ॉर्म बनाते हैं।

circle-check

सर्वर आवश्यकताएँ

पैरामीटर
न्यूनतम
अनुशंसित

RAM

16 GB

32 GB+

VRAM

8 GB (QLoRA)

24 GB+

डिस्क

50 GB

200 GB+

GPU

NVIDIA RTX 2080+

A100, RTX 4090

circle-info

ट्रेनिंग विधि GPU आवश्यकताओं को निर्धारित करती है:

  • QLoRA (4-बिट): 7B मॉडलों के लिए 8 GB VRAM, 13B के लिए 16 GB

  • LoRA (float16): 7B मॉडलों के लिए 16 GB VRAM, 13B के लिए 40 GB

  • पूर्ण फाइन-ट्यूनिंग: 7B पैरामीटर के लिए ~14 GB VRAM प्रति मॉडल (+ ऑप्टिमाइज़र स्टेट्स)

  • Multi-GPU (DeepSpeed/FSDP) किसी भी संख्या के GPUs पर स्केल करता है

CLORE.AI पर त्वरित तैनाती

Docker इमेज: hiyouga/llamafactory:latest

पोर्ट्स: 22/tcp, 7860/http

पर्यावरण चर:

चर
उदाहरण
विवरण

HF_TOKEN

hf_xxx...

गेटेड मॉडलों के लिए HuggingFace टोकन

WANDB_API_KEY

xxx...

प्रयोग ट्रैकिंग के लिए Weights & Biases

CUDA_VISIBLE_DEVICES

0,1

उपयोग करने के लिए GPUs

चरण-दर-चरण सेटअप

1. CLORE.AI पर एक GPU सर्वर किराए पर लें

पर जाएँ CLORE.AI मार्केटप्लेसarrow-up-right और अपने कार्य के आधार पर चुनें:

कार्य
VRAM
सिफारिश की गई GPU

QLoRA 7B

8 GB

RTX 3070/2080

QLoRA 13B

16 GB

RTX 3090/A4000

LoRA 7B

16 GB

RTX 3090/A4000

LoRA 13B

40 GB

A6000/A100 40GB

Full FT 7B

80 GB

A100 80GB

Multi-GPU

भिन्न-भिन्न

2-8× किसी भी GPU

2. अपने सर्वर में SSH करें

3. कार्य निर्देशिकाएँ बनाएं

4. Docker इमेज खींचें

5. LLaMA-Factory लॉन्च करें

वेब UI (LLaMA Board) के साथ लॉन्च करें:

Weights & Biases ट्रैकिंग के साथ:

DeepSpeed के साथ Multi-GPU (4 GPUs):

6. वेब इंटरफेस तक पहुँचें

लॉग जांचें और URL प्राप्त करें:

पोर्ट 7860 के लिए आपका CLORE.AI http_pub URL:


उपयोग के उदाहरण

उदाहरण 1: वेब UI (LLaMA Board) के जरिए LoRA फाइन-ट्यूनिंग

  1. अपने CLORE.AI URL पर LLaMA Board खोलें

  2. पर जाएँ Train टैब

  3. कॉन्फ़िगर करें:

    • मॉडल नाम: LLaMA-3Meta-Llama-3-8B-Instruct

    • ट्रेनिंग चरण: Supervised Fine-Tuning

    • डेटासेट: अपना डेटासेट चुनें (या कस्टम अपलोड करें)

    • फाइन-ट्यूनिंग विधि: lora

    • LoRA रैंक: 8 (अधिक = अधिक प्रशिक्षित पैरामीटर)

    • लर्निंग रेट: 1e-4

    • एपॉक्स: 3

    • आउटपुट निर्देशिका: llama3-finetuned

  4. पर क्लिक करें शुरू करें ट्रेनिंग प्रारंभ करने के लिए

  5. लॉस कर्व मॉनिटर करें Loss चार्ट

उदाहरण 2: CLI-आधारित QLoRA फाइन-ट्यूनिंग

एक ट्रेनिंग कॉन्फ़िग YAML तैयार करें:

उदाहरण 3: कस्टम डेटासेट अपलोड करें

Alpaca फॉर्मेट में एक कस्टम डेटासेट बनाएं:

फिर चुनें my_dataset LLaMA Board के Dataset ड्रॉपडाउन में।

उदाहरण 4: DPO (Direct Preference Optimization)

उदाहरण 5: फाइन-ट्यून किए गए मॉडल के साथ इन्फ़रेंस

ट्रेनिंग के बाद, अपने मॉडल का परीक्षण करें:

या मर्ज्ड मॉडल निर्यात करें:


कॉन्फ़िगरेशन

मुख्य ट्रेनिंग पैरामीटर

पैरामीटर
सामान्य मान
विवरण

lora_rank

8–64

LoRA रैंक (उच्च = अधिक अभिव्यक्तिपूर्ण)

lora_alpha

2× रैंक

LoRA alpha स्केलिंग

lora_dropout

0.0–0.1

LoRA लेयर्स के लिए ड्रॉपआउट

lora_target

all

किस लेयर पर LoRA लागू करना है

learning_rate

1e-4

प्रारंभिक लर्निंग रेट

num_train_epochs

1–5

ट्रेनिंग एपॉक्स

per_device_train_batch_size

1–4

प्रति GPU बैच साइज

gradient_accumulation_steps

4–16

प्रभावी बैच गुणक

cutoff_len

1024–4096

अधिकतम सीक्वेंस लंबाई

quantization_bit

4 या 8

QLoRA क्वांटाइज़ेशन बिट्स

warmup_ratio

0.05–0.1

LR वॉर्मअप भाग

lr_scheduler_type

cosine

LR शेड्यूल

समर्थित फाइन-ट्यूनिंग विधियाँ

विधि
मेमोरी उपयोग
गुणवत्ता
कब उपयोग करें

full

बहुत उच्च

सबसे अच्छा

असीमित VRAM

freeze

मध्यम

अच्छा

बेस लेयर्स को फ्रीज़ करें

lora

कम

बहुत अच्छा

डिफ़ॉल्ट विकल्प

qlora (lora+quant)

सबसे कम

अच्छा

सीमित VRAM

Multi-GPU DeepSpeed ट्रेनिंग

कई GPUs पर ट्रेनिंग के लिए, इसके साथ लॉन्च करें torchrun:


प्रदर्शन सुझाव

1. GPU के अनुसार सर्वोतम QLoRA सेटिंग्स

8 GB VRAM (RTX 3070):

24 GB VRAM (RTX 3090/4090):

80 GB VRAM (A100):

2. लंबे कॉन्टेक्स्ट के लिए Flash Attention 2

यह समान VRAM पर 2× लंबे सीक्वेंस के साथ ट्रेनिंग सक्षम करता है।

3. Gradient Checkpointing

लगभग ~20% धीमी ट्रेनिंग की कीमत पर VRAM बचाता है:

4. सही LoRA टारगेट चुनें

5. तेज़ अनुकूलन के लिए ऊपर की लेयर्स फ्रीज़ करें

सरल कार्य अनुकूलन के लिए पूर्ण LoRA की तुलना में बहुत तेज़।

6. TensorBoard से मॉनिटर करें

TensorBoard तक पहुँचने के लिए अपने CLORE.AI ऑर्डर में पोर्ट 6006 जोड़ें।


समस्या निवारण

समस्या: ट्रेनिंग के दौरान "CUDA out of memory"

  1. बैच साइज कम करें: per_device_train_batch_size: 1

  2. Gradient checkpointing सक्षम करें: gradient_checkpointing: true

  3. कॉण्टेक्स्ट लंबाई कम करें: cutoff_len: 512

  4. QLoRA (4-बिट) का उपयोग करें: quantization_bit: 4

  5. LoRA रैंक कम करें: lora_rank: 4

समस्या: ट्रेनिंग लॉस घट नहीं रहा

  • लर्निंग रेट जांचें — आज़माएँ 5e-5 इमेज जेनरेट करें 2e-4

  • सुनिश्चित करें कि डेटासेट फॉर्मेट टेम्पलेट से मेल खाता है

  • बढ़ाएँ lora_rank (8→16→32)

  • जांचें कि lora_target: all सेट है

समस्या: धीमी ट्रेनिंग गति

यदि GPU < 80% उपयोग में है:

  • बैच साइज बढ़ाएँ

  • Flash Attention का उपयोग करें: flash_attn: fa2

  • हटाएँ gradient_checkpointing यदि VRAM अनुमति देता है

समस्या: वेब UI में मॉडल नहीं मिला

फिर LLaMA Board में मॉडल सूची रिफ्रेश करें।

समस्या: डेटासेट फॉर्मेट त्रुटियाँ

सभी डेटासेट फॉर्मेट्स को मिलना चाहिए dataset_info.json विशिष्टरण:

समस्या: WebUI पोर्ट पहुँच योग्य नहीं

सुनिश्चित करें कि LLaMA-Factory ने Gradio सर्वर शुरू किया है:

लॉन्च कमांड में जोड़ें --share एक सार्वजनिक Gradio URL के लिए फ़्लैग के रूप में वैकल्पिक।


लिंक


Clore.ai GPU सिफारिशें

उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत

डेवलपमेंट/टेस्टिंग

RTX 3090 (24GB)

~$0.12/gpu/hr

फाइन-ट्यूनिंग (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

बड़े मॉडल (70B+)

A100 80GB

~$1.20/gpu/hr

मल्टी-GPU ट्रेनिंग

2-4x A100 80GB

~$2.40–$4.80/hr

💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं Clore.aiarrow-up-right GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।

Last updated

Was this helpful?