TRL (обучение RLHF/DPO)
Что такое TRL?
Требования к серверу
Компонент
Минимум
Рекомендуется
VRAM по задаче
Задача
Модель
Метод
VRAM
Порты
Порт
Сервис
Примечания
Установка на Clore.ai
Шаг 1 — Арендуйте сервер
Шаг 2 — Подключитесь по SSH
Шаг 3 — Установите TRL
Шаг 4 — Аутентификация HuggingFace
Шаг 5 — По желанию: отслеживание Weights & Biases
Супервизированная донастройка (SFT)
Подготовьте ваш набор данных
Скрипт обучения SFT
DPO (Direct Preference Optimization)
Подготовьте набор данных для DPO
Скрипт обучения DPO
PPO (Proximal Policy Optimization)
GRPO (Group Relative Policy Optimization)
Обучение на нескольких GPU
Использование TRL CLI
Мониторинг обучения
Рекомендации Clore.ai по GPU
Задача
GPU
Примечания
Устранение неполадок
CUDA: недостаточно памяти (Out of Memory)
Loss равен NaN
DPO: chosen_rewards > rejected_rewards равно False
chosen_rewards > rejected_rewards равно FalseОбучение очень медленное
tokenizer.pad_token предупреждение
tokenizer.pad_token предупреждениеДоступ запрещён / HuggingFace 401
Сохранение и публикация вашей модели
Полезные ссылки
Последнее обновление
Это было полезно?