TRL (RLHF/DPO-Training)
Was ist TRL?
Serveranforderungen
Komponente
Minimum
Empfohlen
VRAM nach Aufgabe
Aufgabe
Modell
Methode
VRAM
Ports
Port
Dienst
Hinweise
Installation auf Clore.ai
Schritt 1 — Miete einen Server
Schritt 2 — Verbinden via SSH
Schritt 3 — Installiere TRL
Schritt 4 — HuggingFace-Authentifizierung
Schritt 5 — Optional: Weights & Biases Tracking
Supervised Fine-Tuning (SFT)
Bereite dein Dataset vor
SFT-Trainingsskript
DPO (Direct Preference Optimization)
Bereite DPO-Dataset vor
DPO-Trainingsskript
PPO (Proximal Policy Optimization)
GRPO (Group Relative Policy Optimization)
Multi-GPU-Training
Verwendung der TRL-CLI
Überwachung des Trainings
Clore.ai GPU-Empfehlungen
Aufgabe
GPU
Hinweise
Fehlerbehebung
CUDA Out of Memory
Loss ist NaN
DPO: chosen_rewards > rejected_rewards ist False
chosen_rewards > rejected_rewards ist FalseTraining ist sehr langsam
tokenizer.pad_token Warnung
tokenizer.pad_token WarnungZugriff verweigert / HuggingFace 401
Dein Modell speichern und teilen
Nützliche Links
Zuletzt aktualisiert
War das hilfreich?