Unsloth 2x तेज़ फाइन-ट्यूनिंग

Clore.ai पर Unsloth का उपयोग करके 70% कम VRAM के साथ LLMs को 2x तेज़ी से फाइन-ट्यून करें

Unsloth HuggingFace Transformers के प्रदर्शन-नजरिए हिस्सों को हाथ से अनुकूलित Triton कर्नेल्स के साथ पुनर्लेखन करता है, प्रदान करते हुए 2x प्रशिक्षण गति और 70% VRAM कमी बिना किसी सटीकता हानि के। यह एक drop-in रिप्लेसमेंट है — आयात बदलने के बाद आपके मौजूदा TRL/PEFT स्क्रिप्ट बिना बदलाव के काम करेंगे।

circle-check

प्रमुख विशेषताएँ

  • 2x तेज़ प्रशिक्षण — attention, RoPE, cross-entropy, और RMS norm के लिए कस्टम Triton कर्नेल्स

  • 70% कम VRAM — बुद्धिमान gradient checkpointing और memory-mapped weights

  • Drop-in HuggingFace रिप्लेसमेंट — केवल एक import परिवर्तन, और कुछ भी नहीं

  • QLoRA / LoRA / पूर्ण फाइन-ट्यून — सभी मोड बॉक्स से बाहर समर्थित

  • मूल (नेटिव) एक्सपोर्ट — सीधे GGUF (सभी क्वांट प्रकार), LoRA एडाप्टर्स, या मर्ज्ड 16-बिट में सहेजें

  • विस्तृत मॉडल कवरेज — Llama 3.x, Mistral, Qwen 2.5, Gemma 2, DeepSeek-R1, Phi-4, और भी बहुत कुछ

  • मुफ्त और ओपन सोर्स (Apache 2.0)

आवश्यकताएँ

घटक
न्यूनतम
अनुशंसित

GPU

RTX 3060 12 GB

RTX 4090 24 GB

VRAM

10 GB

24 GB

RAM

16 GB

32 GB

डिस्क

40 GB

80 GB

CUDA

11.8

12.1+

Python

3.10

3.11

Clore.ai मूल्य निर्धारण: RTX 4090 ≈ $0.5–2/दिन · RTX 3090 ≈ $0.3–1/दिन · RTX 3060 ≈ $0.15–0.3/दिन

एक 7B मॉडल 4-bit QLoRA के साथ फिट हो जाता है ~10 GB VRAM, जिससे यहां तक कि एक RTX 3060 भी सक्षम बन जाता है।

त्वरित प्रारम्भ

1. Unsloth इंस्टॉल करें

2. 4-bit क्वांटाइज़ेशन के साथ एक मॉडल लोड करें

3. LoRA एडाप्टर्स लागू करें

4. डेटा तैयार करें और प्रशिक्षण करें

मॉडल का एक्सपोर्ट करना

केवल LoRA एडाप्टर सहेजें

मर्ज करके पूर्ण मॉडल सहेजें (float16)

Ollama / llama.cpp के लिए GGUF में एक्सपोर्ट करें

एक्सपोर्ट के बाद, Ollama के साथ सर्व करें:

उपयोग के उदाहरण

कस्टम चैट डेटासेट पर फाइन-ट्यून करें

DPO / ORPO एलाइनमेंट प्रशिक्षण

VRAM उपयोग संदर्भ

मॉडल
क्वांट
विधि
VRAM
GPU

Llama 3.1 8B

4-bit

QLoRA

~10 GB

RTX 3060

Llama 3.1 8B

16-bit

LoRA

~18 GB

RTX 3090

Qwen 2.5 14B

4-bit

QLoRA

~14 GB

RTX 3090

Mistral 7B

4-bit

QLoRA

~9 GB

RTX 3060

DeepSeek-R1 7B

4-bit

QLoRA

~10 GB

RTX 3060

Llama 3.3 70B

4-bit

QLoRA

~44 GB

2× RTX 3090

टिप्स

  • हमेशा उपयोग करें use_gradient_checkpointing="unsloth" — यह एकल सबसे बड़ा VRAM बचाने वाला है, जो Unsloth के लिए विशिष्ट है

  • सेट करें lora_dropout=0 — Unsloth के Triton कर्नेल्स शून्य dropout के लिए अनुकूलित हैं और तेज़ चलते हैं

  • उपयोग करें packing=True SFTTrainer में ताकि छोटे उदाहरणों पर padding की बर्बादी से बचा जा सके

  • के साथ शुरू करें r=16 LoRA रैंक के लिए — केवल तभी 32 या 64 बढ़ाएँ जब validation loss प्लेट्यू हो जाए

  • wandb के साथ मॉनिटर करें — जोड़ें report_to="wandb" loss ट्रैकिंग के लिए TrainingArguments में

  • बैच साइज ट्यूनिंग — बढ़ाएँ per_device_train_batch_size जब तक आप VRAM सीमा के पास न पहुँचें, फिर क्षतिपूर्ति करें gradient_accumulation_steps

समस्याओं का निवारण

समस्या
समाधान

OutOfMemoryError प्रशिक्षण के दौरान

बैच साइज को 1 तक घटाएं, कम करें max_seq_length, या 4-bit क्वांट का उपयोग करें

Triton कर्नेल कंपाइलेशन त्रुटियाँ

चलाएँ pip install triton --upgrade और सुनिश्चित करें कि CUDA टूलकिट मेल खाता है

पहला कदम धीमा (कम्पाइलिंग)

सामान्य — Triton पहले रन पर कर्नेल्स कम्पाइल करता है, बाद में कैश हो जाते हैं

bitsandbytes CUDA संस्करण त्रुटि

मेल खाता हुआ वर्शन इंस्टॉल करें: pip install bitsandbytes --upgrade

प्रशिक्षण के दौरान loss spike होना

learning rate को 1e-4 तक घटाएँ, warmup steps जोड़ें

GGUF एक्सपोर्ट क्रैश होना

कन्वर्ज़न के लिए पर्याप्त RAM (मॉडल साइज़ का 2×) और डिस्क स्पेस सुनिश्चित करें

संसाधन

Last updated

Was this helpful?