TRL (Entraînement RLHF/DPO)
Qu'est-ce que TRL ?
Exigences serveur
Composant
Minimum
Recommandé
VRAM par tâche
Tâche
Modèle
Méthode
VRAM
Ports
Port
Service
Remarques
Installation sur Clore.ai
Étape 1 — Louer un serveur
Étape 2 — Se connecter via SSH
Étape 3 — Installer TRL
Étape 4 — Authentification HuggingFace
Étape 5 — Optionnel : suivi Weights & Biases
Supervised Fine-Tuning (SFT)
Préparez votre jeu de données
Script d'entraînement SFT
DPO (Direct Preference Optimization)
Préparer le jeu de données DPO
Script d'entraînement DPO
PPO (Proximal Policy Optimization)
GRPO (Group Relative Policy Optimization)
Entraînement Multi-GPU
Utilisation du CLI TRL
Surveillance de l'entraînement
Recommandations GPU Clore.ai
Tâche
GPU
Remarques
Dépannage
Erreur CUDA Out of Memory
La perte est NaN
DPO : chosen_rewards > rejected_rewards est Faux
chosen_rewards > rejected_rewards est FauxL'entraînement est très lent
tokenizer.pad_token avertissement
tokenizer.pad_token avertissementPermission refusée / HuggingFace 401
Sauvegarder et partager votre modèle
Liens utiles
Mis à jour
Ce contenu vous a-t-il été utile ?