LitGPT

LitGPT высокопроизводительная библиотека для предварительного обучения, дообучения и развёртывания более 20 больших языковых моделей, построенная на PyTorch Lightning. С более чем 12 000 звёзд на GitHub, это набор инструментов для инженеров, которым нужен чистый, легко модифицируемый код обучения LLM без дополнительных уровней абстракции, как в HuggingFace Transformers.

Каждая модель в LitGPT — примерно 1000 строк чистого PyTorch — без цепочек наследования глубиной в 10 уровней, без магии. Вы можете прочитать реализацию Llama 3 полностью за один день и уверенно её изменять.

circle-check

Что такое LitGPT?

LitGPT предоставляет готовые к производству реализации передовых LLM с унифицированным интерфейсом обучения:

  • Поддерживается более 20 моделей — Llama 3, Gemma 2, Mistral, Phi-3, Falcon, StableLM и другие

  • Предобучение с нуля — полное предобучение с Flash Attention, FSDP и gradient checkpointing

  • Эффективное дообучение — полное дообучение, LoRA, QLoRA и методы Adapter

  • Развёртывание с уверенностью — встроенный inference-сервер с квантованием

  • Поддержка мульти-GPU — DDP, FSDP, тензорный параллелизм из коробки

  • Экономия памяти — 4-битное квантование, gradient checkpointing, activation checkpointing


Требования к серверу

Компонент
Минимум
Рекомендуется

GPU

RTX 3090 (24 ГБ)

A100 80 ГБ / H100

Видеопамять (VRAM)

16 ГБ (7B LoRA)

80 ГБ+ (70B полный)

ОЗУ

32 ГБ

64 ГБ+

CPU

8 ядер

16+ ядер

Хранилище

100 ГБ

500 ГБ+

ОС

Ubuntu 20.04+

Ubuntu 22.04

Python

3.10+

3.11

CUDA

11.8+

12.1+

Требования к VRAM по задаче

Задача
Модель
Видеопамять (VRAM)

Инференс (4-бит)

Llama-3 8B

~6 ГБ

LoRA дообучение

Llama-3 8B

~16 ГБ

Полное дообучение

Llama-3 8B

~80 ГБ

LoRA дообучение

Llama-3 70B

~48 ГБ (2×A100)

Полное дообучение

Llama-3 70B

~640 ГБ (8×A100)

QLoRA дообучение

Llama-3 8B

~8 ГБ


Порты

Порт
Сервис
Примечания

22

SSH

Доступ к терминалу и передача файлов

8000

LitGPT Inference Server

REST API для сервирования моделей


Быстрый старт с Docker


Установка на Clore.ai

Шаг 1 — Аренда сервера

  1. Перейдите на Clore.ai Marketplacearrow-up-right

  2. Отфильтруйте по VRAM ≥ 24 ГБ (RTX 3090 или лучше)

  3. Выберите PyTorch или CUDA 12.1 базовый образ

  4. Откройте порты 22 и 8000 в настройках заказа

  5. Выберите хранилище ≥ 200 ГБ для весов модели

Шаг 2 — Подключение по SSH

Шаг 3 — Установка LitGPT

Шаг 4 — Проверка установки

Ожидаемый вывод:


Скачивание моделей

LitGPT скачивает модели с Hugging Face:

Установить токен HuggingFace


Инференс (чат и генерация)


Дообучение

LoRA дообучение (рекомендуется)

LoRA обучает небольшой набор адаптерных параметров (обычно 0,1–1% от общего числа весов), в то время как базовая модель остаётся замороженной. LoRA для Llama 3 8B на 10K примерах занимает ~2 часа на RTX 3090 с r=16.

QLoRA (4-бит + LoRA)

Используйте QLoRA для дообучения больших моделей при ограниченном объёме VRAM. Llama 3 8B помещается на одной RTX 3090 с 24 ГБ:

Полное дообучение

Обучение на нескольких GPU


Развёртывание моделей (REST API)

Клиент на Python


Предобучение с нуля

Для обучения кастомной LLM с нуля на ваших данных:


Конвертация и экспорт моделей


Оценка моделей


Рекомендации по GPU от Clore.ai

LitGPT охватывает три различных рабочих нагрузки — инференс, LoRA дообучение и полное предобучение — каждая с разными требованиями к GPU.

Рабочая нагрузка
GPU
Видеопамять (VRAM)
Примечания

Инференс / чат (модели 7–8B)

RTX 3090

24 ГБ

Вмещает Llama 3 8B в bf16; ~95 ток/с генерации

LoRA дообучение (модели 7–8B)

RTX 3090

24 ГБ

Бюджетный выбор; QLoRA удерживает VRAM ниже 10 ГБ

LoRA дообучение (7–8B), быстрая итерация

RTX 4090

24 ГБ

~35% быстрее, чем 3090; сокращает 2-часовую задачу примерно до 1.4 часа

Полное дообучение (7B) или QLoRA (70B)

A100 40 ГБ

40 ГБ

40 ГБ вмещает 7B в полной точности или 70B в 4-битном режиме

Полное дообучение (13B+) или предобучение

A100 80 ГБ

80 ГБ

Максимальная пропускная способность; ~2800 ток/с при обучении на 8B

Рекомендуется для большинства пользователей: Пара RTX 3090 (2×24 ГБ = 48 ГБ эффективно с FSDP). Поддерживает QLoRA на моделях 70B или полное дообучение моделей 7B с тензорным параллелизмом. Стоимость на Clore.ai: примерно $0.25/ч за две 3090.

Для предобучения или дообучения >70B: Используйте 4×A100 80 ГБ с FSDP. Интеграция FSDP в LitGPT прозрачно управляет шардингом — просто укажите --devices 4 --strategy fsdp.


Устранение неполадок

CUDA: недостаточно памяти

Скачивание не удалось / HuggingFace 401

Падение величины loss при обучении не наблюдается

Порт сервера 8000 недоступен

Обучение на нескольких GPU зависает


Полезные ссылки

Последнее обновление

Это было полезно?