DeepSpeed — обучение
Эффективно обучайте большие модели с DeepSpeed на GPU Clore.ai
Аренда на CLORE.AI
Доступ к вашему серверу
Что такое DeepSpeed?
Стадии ZeRO
Стадия
Экономия памяти
Скорость
Быстрое развертывание
Установка
Базовое обучение
Конфигурация DeepSpeed
Скрипт обучения
Конфигурация ZeRO Stage 2
Конфигурация ZeRO Stage 3
С Hugging Face Transformers
Интеграция с Trainer
Обучение на нескольких GPU
Команда запуска
С torchrun
Обучение в нескольких узлах
Файл хостов
Запуск
Настройка SSH
Конфигурации, экономящие память
Модель 7B на GPU с 24 ГБ
Модель 13B на GPU с 24 ГБ
Gradient Checkpointing
Сохранение и загрузка чекпоинтов
Сохранить
Загрузить
Сохранить в формате HuggingFace
Мониторинг
TensorBoard
Weights & Biases
Распространённые проблемы
Недостаточно памяти
Медленное обучение
Ошибки NCCL
Советы по производительности
Совет
Эффект
Сравнение производительности
Модель
GPU
Стадия ZeRO
Скорость обучения
Устранение неполадок
Оценка стоимости
GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа
Дальнейшие шаги
Последнее обновление
Это было полезно?