TRL (Entrenamiento RLHF/DPO)
¿Qué es TRL?
Requisitos del servidor
Componente
Mínimo
Recomendado
VRAM por tarea
Tarea
Modelo
Método
VRAM
Puertos
Puerto
Servicio
Notas
Instalación en Clore.ai
Paso 1 — Alquilar un servidor
Paso 2 — Conectar vía SSH
Paso 3 — Instalar TRL
Paso 4 — Autenticación en HuggingFace
Paso 5 — Opcional: Seguimiento con Weights & Biases
Ajuste fino supervisado (SFT)
Prepara tu conjunto de datos
Script de entrenamiento SFT
DPO (Optimización Directa por Preferencias)
Preparar dataset para DPO
Script de entrenamiento DPO
PPO (Proximal Policy Optimization)
GRPO (Group Relative Policy Optimization)
Entrenamiento multi-GPU
Usando la CLI de TRL
Monitorización del entrenamiento
Recomendaciones de GPU de Clore.ai
Tarea
GPU
Notas
Solución de problemas
CUDA Out of Memory
La pérdida es NaN
DPO: chosen_rewards > rejected_rewards es False
chosen_rewards > rejected_rewards es FalseEl entrenamiento es muy lento
tokenizer.pad_token advertencia
tokenizer.pad_token advertenciaPermiso denegado / HuggingFace 401
Guardar y Compartir Tu Modelo
Enlaces Útiles
Última actualización
¿Te fue útil?