DeepSpeed — обучение

Эффективно обучайте большие модели с DeepSpeed на GPU Clore.ai

Эффективно обучайте большие модели с помощью Microsoft DeepSpeed.

circle-check

Аренда на CLORE.AI

  1. Отфильтруйте по типу GPU, объему VRAM и цене

  2. Выберите On-Demand (фиксированная ставка) или Spot (цена по ставке)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Установите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • Добавьте переменные окружения при необходимости

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Моих заказах

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Что такое DeepSpeed?

DeepSpeed позволяет:

  • Обучать модели, которые не помещаются в память GPU

  • Обучение на нескольких GPU и в нескольких узлах

  • Оптимизация ZeRO (эффективность использования памяти)

  • Обучение с смешанной точностью

Стадии ZeRO

Стадия
Экономия памяти
Скорость

ZeRO-1

Состояния оптимизатора распределены

Быстро

ZeRO-2

+ Градиенты распределены

Сбалансировано

ZeRO-3

+ Параметры распределены

Максимальная экономия

ZeRO-Infinity

Выгрузка на CPU/NVMe

Крупнейшие модели

Быстрое развертывание

Docker-образ:

Порты:

Команда:

Установка

Базовое обучение

Конфигурация DeepSpeed

ds_config.json:

Скрипт обучения

Конфигурация ZeRO Stage 2

Конфигурация ZeRO Stage 3

Для больших моделей:

С Hugging Face Transformers

Интеграция с Trainer

Обучение на нескольких GPU

Команда запуска

С torchrun

Обучение в нескольких узлах

Файл хостов

hostfile:

Запуск

Настройка SSH

Конфигурации, экономящие память

Модель 7B на GPU с 24 ГБ

Модель 13B на GPU с 24 ГБ

Gradient Checkpointing

Экономия памяти за счёт пересчёта активаций:

Сохранение и загрузка чекпоинтов

Сохранить

Загрузить

Сохранить в формате HuggingFace

Мониторинг

TensorBoard

Weights & Biases

Распространённые проблемы

Недостаточно памяти

Медленное обучение

  • Уменьшите выгрузку на CPU

  • Увеличьте размер батча

  • Используйте ZeRO Stage 2 вместо 3

Ошибки NCCL

Советы по производительности

Совет
Эффект

Используйте bf16 вместо fp16

Лучшая стабильность

Включите gradient checkpointing

Меньше памяти

Настройте размер батча

Лучший пропускной поток

Используйте выгрузку на NVMe

Более крупные модели

Сравнение производительности

Модель
GPU
Стадия ZeRO
Скорость обучения

7B

1x A100

ZeRO-3

~1000 токенов/с

7B

4x A100

ZeRO-2

~4000 токенов/с

13B

4x A100

ZeRO-3

~2000 токенов/с

70B

8x A100

ZeRO-3

~800 токенов/с

Устранение неполадок

Оценка стоимости

Типичные ставки на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)

  • Платите с помощью CLORE токенов

  • Сравнивайте цены у разных провайдеров

Дальнейшие шаги

Последнее обновление

Это было полезно?