TRL(RLHF/DPO 训练)
什么是 TRL?
服务器要求
组件
最低
推荐
按任务的显存需求
任务
模型
方法
显存(VRAM)
端口(Ports)
端口(Port)
服务(Service)
说明(Notes)
在 Clore.ai 上的安装
步骤 1 — 租用服务器
步骤 2 — 通过 SSH 连接
步骤 3 — 安装 TRL
步骤 4 — HuggingFace 验证(认证)
步骤 5 — 可选:Weights & Biases 跟踪
有监督微调(SFT)
准备你的数据集
SFT 训练脚本
DPO(直接偏好优化)
准备 DPO 数据集
DPO 训练脚本
PPO(近端策略优化)
GRPO(群体相对策略优化)
多 GPU 训练
使用 TRL CLI
监控训练
Clore.ai 的 GPU 建议
任务
GPU
说明(Notes)
故障排除
CUDA 内存不足(Out of Memory)
损失为 NaN
DPO: chosen_rewards > rejected_rewards 为 False
chosen_rewards > rejected_rewards 为 False训练非常慢
tokenizer.pad_token 警告
tokenizer.pad_token 警告权限被拒绝 / HuggingFace 401
保存并共享你的模型
有用的链接
最后更新于
这有帮助吗?