TRL (RLHF/DPO प्रशिक्षण)
TRL क्या है?
सर्वर आवश्यकताएँ
घटक
न्यूनतम
अनुशंसित
कार्य के अनुसार VRAM
कार्य
मॉडल
विधि
VRAM
पोर्ट्स
पोर्ट
सेवा
नोट्स
Clore.ai पर स्थापना
चरण 1 — एक सर्वर किराये पर लें
चरण 2 — SSH के माध्यम से कनेक्ट करें
चरण 3 — TRL इंस्टॉल करें
चरण 4 — HuggingFace प्रमाणीकरण
चरण 5 — वैकल्पिक: Weights & Biases ट्रैकिंग
Supervised Fine-Tuning (SFT)
अपना डेटासेट तैयार करें
SFT प्रशिक्षण स्क्रिप्ट
DPO (Direct Preference Optimization)
DPO डेटासेट तैयार करें
DPO प्रशिक्षण स्क्रिप्ट
PPO (Proximal Policy Optimization)
GRPO (Group Relative Policy Optimization)
मल्टी-GPU प्रशिक्षण
TRL CLI का उपयोग करना
प्रशिक्षण की निगरानी
Clore.ai GPU सिफारिशें
कार्य
GPU
नोट्स
समस्या निवारण
CUDA Out of Memory
लॉस NaN है
DPO: chosen_rewards > rejected_rewards गलत है
chosen_rewards > rejected_rewards गलत हैप्रशिक्षण बहुत धीमा है
tokenizer.pad_token चेतावनी
tokenizer.pad_token चेतावनीअनुमति अस्वीकृत / HuggingFace 401
अपने मॉडल को सहेजना और साझा करना
उपयोगी लिंक
Last updated
Was this helpful?