फाइन-ट्यूनिंग टूल्स तुलना

Clore.ai GPU सर्वरों पर LLMs का प्रशिक्षण करने के लिए सही फाइन-ट्यूनिंग फ्रेमवर्क चुनें।

circle-info

फाइन-ट्यूनिंग पूर्व-प्रशिक्षित LLM को आपके विशिष्ट कार्य या डोमेन के अनुकूल बनाता है। यह मार्गदर्शिका चार प्रमुख ओपन-सोर्स टूल — Unsloth, Axolotl, LLaMA-Factory, और TRL — की तुलना करती है — गति, मेमोरी दक्षता, समर्थित मॉडलों और उपयोग में आसानी को कवर करते हुए।


त्वरित निर्णय मैट्रिक्स

एक मॉडल को फाइन-ट्यून करें
Axolotl
🆕 — HuggingFace का प्रोडक्शन LLM सर्विंग Flash Attention 2 + PagedAttention के साथ —
TRL

उत्तम हेतु

गति + मेमोरी

कॉन्फ़िग-आधारित प्रशिक्षण

शुरुआती-अनुकूल

अनुसंधान + RLHF

बेसलाइन के खिलाफ गति

2-5× तेज़

~1× (मानक)

~1× (मानक)

~1× (मानक)

मेमोरी में कमी

70-80% कम

QLoRA मानक

QLoRA मानक

मानक

RLHF/DPO/PPO

बुनियादी

✅ (मूल)

वेबUI

GitHub स्टार्स

23K+

9K+

37K+

10K+

लाइसेंस

LGPL (गैर-व्यावसायिक उपयोग के लिए मुफ़्त)

Apache 2.0

Apache 2.0

Apache 2.0


समीक्षा

एक मॉडल को फाइन-ट्यून करें

Unsloth एक चीज़ पर तीक्ष्ण रूप से केंद्रित है: फाइन-ट्यूनिंग को यथासंभव तेज़ और मेमोरी-कुशल बनाना। यह Triton में प्रमुख ऑपरेशनों को पुनर्लिखता है और CUDA कर्नेल को अनुकूलित करता है।

दर्शन: अधिकतम गति, न्यूनतम VRAM — कोई समझौता नहीं।

Axolotl

Axolotl HuggingFace Transformers को YAML-आधारित कॉन्फ़िगरेशन सिस्टम के साथ रैप करता है। यह प्रशिक्षण सेटअप की जटिलताओं को संभालता है ताकि आप डेटा और हाइपरपैरामीटर्स पर ध्यान केंद्रित कर सकें।

दर्शन: सब कुछ YAML में, नीचे पूरी लचीलापन।

🆕 — HuggingFace का प्रोडक्शन LLM सर्विंग Flash Attention 2 + PagedAttention के साथ —

LLaMA-Factory 100+ मॉडलों और प्रशिक्षण विधियों की सबसे व्यापक श्रृंखला का समर्थन करता है, और कॉन्फ़िगरेशन के लिए एक वेब UI भी प्रदान करता है। यह गैर-अनुसंधानकर्ताओं के लिए सबसे सुलभ विकल्प है।

दर्शन: सब कुछ काम करता है, सभी के लिए।

TRL (Transformer Reinforcement Learning)

TRL HuggingFace की आधिकारिक RLHF लाइब्रेरी है। यह PPO, DPO, ORPO और अन्य एलाइन्मेंट प्रशिक्षण विधियों के लिए मानक है।

दर्शन: अनुसंधान-प्रथम, एलाइन्मेंट प्रशिक्षण मूल रूप से मौजूद।


स्पीड बेंचमार्क

प्रशिक्षण गति तुलना (टोकन/सेकेंड)

परीक्षण सेटअप: LLaMA 3.1 8B, LoRA r=16, 4-बिट क्वांटाइज़ेशन, बैच साइज 4, A100 80GB

टूल
टोकन/सेकंड
बेसलाइन के खिलाफ
मेमोरी (VRAM)

Unsloth (4-बिट)

~4,200

2.8×

~8GB

Axolotl (QLoRA)

~1,500

1.0×

~16GB

LLaMA-Factory (QLoRA)

~1,480

~1.0×

~16GB

TRL (QLoRA)

~1,450

~0.97×

~18GB

Unsloth (पूर्ण 16-बिट)

~2,800

1.9×

~22GB

circle-check

VRAM उपयोग तुलना

LLaMA 3.1 8B का प्रशिक्षण, अनुक्रम लंबाई 2048:

विधि
एक मॉडल को फाइन-ट्यून करें
Axolotl
🆕 — HuggingFace का प्रोडक्शन LLM सर्विंग Flash Attention 2 + PagedAttention के साथ —
TRL

पूर्ण फाइन-ट्यून (bf16)

60GB

70GB

72GB

74GB

LoRA (bf16)

18GB

24GB

25GB

26GB

QLoRA (4-बिट)

8GB

16GB

16GB

18GB

QLoRA (4-बिट, लंबी संदर्भ)

12GB

24GB

24GB

26GB

8B मॉडल के लिए न्यूनतम GPU:

  • Unsloth: RTX 3080 (10GB) ✅

  • अन्य: RTX 3090 (24GB) आवश्यक


समर्थित मॉडल

मॉडल समर्थन मैट्रिक्स

मॉडल परिवार
एक मॉडल को फाइन-ट्यून करें
Axolotl
🆕 — HuggingFace का प्रोडक्शन LLM सर्विंग Flash Attention 2 + PagedAttention के साथ —
TRL

LLaMA 3.x

LLaMA 2

Mistral

Mixtral MoE

Gemma 2

Phi-3/3.5

Qwen 2.5

DeepSeek

Falcon

GPT-NeoX

आंशिक

T5/FLAN

BERT/RoBERTa

विज़न LLMs

आंशिक

आंशिक

प्रशिक्षण विधि समर्थन

विधि
एक मॉडल को फाइन-ट्यून करें
Axolotl
🆕 — HuggingFace का प्रोडक्शन LLM सर्विंग Flash Attention 2 + PagedAttention के साथ —
TRL

पूर्ण फाइन-ट्यून

LoRA

QLoRA

DoRA

PEFT

SFT

✅ (मूल)

DPO

✅ (मूल)

PPO

✅ (मूल)

ORPO

KTO

✅ (मूल)

GRPO

CPT (जारी पूर्व-प्रशिक्षण)


Unsloth: गहन परिचय

क्यों यह तेज़ है

  1. Triton कर्नेल: Flash Attention, क्रॉस-एंट्रॉपी लॉस, और LoRA को Triton में पुनर्लिखता है

  2. फ्यूज़्ड ऑपरेशन्स: कई CUDA ऑप्स को एक कर्नेल में संयोजित करता है

  3. स्मार्ट ग्रेडिएंट चेकपॉइंटिंग: "unsloth" मोड ~30% अधिक मेमोरी बचाता है

  4. कुशल बैकप्रोप: बड़े मध्यवर्ती टेन्सरों को मटेरियलाइज़ करने से बचता है

Clore.ai पर इंस्टॉलेशन

पूर्ण प्रशिक्षण स्क्रिप्ट

कमज़ोरियाँ: कोई PPO नहीं, समर्थित मॉडल सूची तक सीमित, LGPL लाइसेंस (व्यावसायिक उपयोग के लिए जाँच करें)


Axolotl: गहन परिचय

कॉन्फ़िगरेशन-प्रथम दृष्टिकोण

Axolotl तब उजागर होता है जब आप पुनरुत्पादनशील, संस्करण-नियंत्रित प्रशिक्षण कॉन्फ़िगरेशन चाहते हैं:

उत्तम हेतु: टीमों के लिए जो पुनरुत्पादनशील, कॉन्फ़िग-संस्करणीकृत प्रशिक्षण रन चाहती हैं


LLaMA-Factory: गहन परिचय

WebUI वॉकथ्रू

WebUI टैब:

  1. Train — बेस मॉडल, डेटासेट, विधि कॉन्फ़िगर करें

  2. मूल्यांकन — MMLU, CMMLU बेंचमार्क चलाएँ

  3. चैट — इंटरैक्टिव इनफ़रेंस

  4. निर्यात — LoRA मर्ज करें, GGUF में क्वांटाइज़ करें

CLI प्रशिक्षण उदाहरण

उत्तम हेतु: शुरुआती, वे टीमें जो WebUI चाहती हैं, DPO/RLHF बिना गहन अनुसंधान ज्ञान के


TRL: गहन परिचय

RLHF पाइपलाइन उदाहरण

TRL एलाइन्मेंट प्रशिक्षण के लिए जाने-माने विकल्प है:

उत्तम हेतु: एलाइन्मेंट अनुसंधान, RLHF, DPO, PPO, ORPO कार्यान्वयन


सही टूल चुनना

निर्णय प्रवाह

टीम प्रकार के अनुसार

टीम
सिफारिश
कारण

व्यक्तिगत शोधकर्ता

एक मॉडल को फाइन-ट्यून करें

गति + Jupyter नोटबुक

ML इंजीनियर

Axolotl

कॉन्फ़िग-आधारित, पुनरुत्पादनशील

प्रोडक्ट टीम

🆕 — HuggingFace का प्रोडक्शन LLM सर्विंग Flash Attention 2 + PagedAttention के साथ —

WebUI, विस्तृत मॉडल समर्थन

एलाइन्मेंट टीम

TRL

मूल RLHF प्रिमिटिव्स

स्टार्टअप

Unsloth + TRL

जरूरत पड़ने पर गति + एलाइन्मेंट


Clore.ai GPU सिफारिशें

कार्य
न्यूनतम GPU
अनुशंसित
टूल

7-8B LoRA (QLoRA)

RTX 3080 (10GB)

RTX 3090

एक मॉडल को फाइन-ट्यून करें

13B LoRA

RTX 3090 (24GB)

A6000 (48GB)

Unsloth/Axolotl

70B LoRA

A100 (80GB)

2×A100

Axolotl/TRL

8B पूर्ण FT

A100 (40GB)

A100 (80GB)

कोई भी

DPO/PPO 7B

RTX 4090 (24GB)

A6000 (48GB)

TRL


उपयोगी लिंक


सारांश

टूल
उत्तम हेतु
मुख्य लाभ

एक मॉडल को फाइन-ट्यून करें

गति-क्रिटिकल प्रशिक्षण, छोटे GPUs

2-5× तेज़, 70% कम VRAM

Axolotl

कॉन्फ़िग-आधारित, पुनरुत्पादनशील रन

YAML-प्रथम, कई डेटा फ़ॉर्मेट्स

🆕 — HuggingFace का प्रोडक्शन LLM सर्विंग Flash Attention 2 + PagedAttention के साथ —

100+ मॉडल, WebUI, शुरुआती

अधिकतर मॉडल समर्थन, GUI

TRL

RLHF, DPO, एलाइन्मेंट अनुसंधान

मूल एलाइन्मेंट प्रशिक्षण

अधिकांश Clore.ai उपयोग मामलों के लिए: शुरुआत करें एक मॉडल को फाइन-ट्यून करें (गति + मेमोरी दक्षता), जोड़ें TRL यदि आपको DPO या PPO एलाइन्मेंट प्रशिक्षण की आवश्यकता है।

Last updated

Was this helpful?