Дообучение LLM

Тонко настраивайте кастомные LLM с эффективными методами на GPU Clore.ai

Обучайте собственную кастомную LLM с помощью эффективных методов дообучения на GPU CLORE.AI.

circle-check

Аренда на CLORE.AI

  1. Фильтровать по типу GPU, объёму VRAM и цене

  2. Выберите По запросу (фиксированная ставка) или Спотовая (цена ставки)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Установите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • Добавьте переменные окружения при необходимости

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Мои заказы

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Что такое LoRA/QLoRA?

  • LoRA (Low-Rank Adaptation) — обучайте небольшие адаптерные слои вместо всего моделя

  • QLoRA — LoRA с квантованием для ещё меньшего потребления VRAM

  • Обучение модели 7B на одной RTX 3090

  • Обучение модели 70B на одной A100

Требования

Модель
Метод
Мин. VRAM
Рекомендуется

7B

QLoRA

12ГБ

RTX 3090

13B

QLoRA

20ГБ

RTX 4090

70B

QLoRA

48ГБ

A100 80GB

7B

Полный LoRA

24ГБ

RTX 4090

Быстрое развертывание

Docker-образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Мои заказы:

  1. Перейдите на Мои заказы страницу

  2. Кликните по вашему заказу

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Подготовка набора данных

Формат чата (рекомендуется)

Формат инструкций

Формат Alpaca

Поддерживаемые современные модели (2025)

Модель
HF ID
Мин. VRAM (QLoRA)

Llama 3.1 / 3.3 8B

meta-llama/Llama-3.1-8B-Instruct

12ГБ

Qwen 2.5 7B / 14B

Qwen/Qwen2.5-7B-Instruct

12ГБ / 20ГБ

DeepSeek-R1-Distill (7B/8B)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

12ГБ

Mistral 7B v0.3

mistralai/Mistral-7B-Instruct-v0.3

12ГБ

Gemma 2 9B

google/gemma-2-9b-it

14ГБ

Phi-4 14B

microsoft/phi-4

20ГБ

Скрипт дообучения QLoRA

Современный пример с PEFT 0.14+, Flash Attention 2, поддержкой DoRA и совместимостью с Qwen2.5 / DeepSeek-R1:

Flash Attention 2

Flash Attention 2 значительно снижает использование VRAM и ускоряет обучение. Требует GPU Ampere+ (RTX 3090, RTX 4090, A100).

Настройка
VRAM (7B)
Скорость

Стандартное внимание (fp16)

~22ГБ

базовый уровень

Flash Attention 2 (bf16)

~16ГБ

+30%

Flash Attention 2 + QLoRA

~12ГБ

+30%

DoRA (Weight-Decomposed LoRA)

DoRA (PEFT >= 0.14) разлагает предварительно обученные веса на компоненты величины и направления. Это улучшает качество дообучения, особенно для меньших рангов.

Примеры Qwen2.5 & DeepSeek-R1-Distill

Дообучение Qwen2.5

Дообучение DeepSeek-R1-Distill

Модели DeepSeek-R1-Distill (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) ориентированы на рассуждение. Дообучите их, чтобы адаптировать стиль цепочек рассуждений к вашей доменной области.

Использование Axolotl (проще)

Axolotl упрощает дообучение с YAML-конфигами:

Примеры конфигураций Axolotl

Чат-модель

Модель для кода

Слияние весов LoRA

После обучения влейте LoRA обратно в базовую модель:

Конвертация в GGUF

Для использования с llama.cpp/Ollama:

Мониторинг обучения

Weights & Biases

TensorBoard

Лучшие практики

Гиперпараметры

Параметр
Модель 7B
Модель 13B
Модель 70B

batch_size

4

2

1

grad_accum

4

8

16

lr

2e-4

1e-4

5e-5

lora_r

64

32

16

epochs

3

2-3

1-2

Размер набора данных

  • Минимум: 1 000 примеров

  • Хорошо: 10 000+ примеров

  • Качество > Количество

Избегание переобучения

Обучение на нескольких GPU

Конфиг DeepSpeed:

Сохранение и экспорт

Устранение неполадок

Ошибки OOM

  • Уменьшите размер батча

  • Увеличьте накопление градиента

  • Используйте gradient_checkpointing=True

  • Уменьшите lora_r

Потеря при обучении не уменьшается

  • Проверьте формат данных

  • Увеличьте скорость обучения

  • Проверьте наличие проблем с данными

Потеря NaN

  • Уменьшите скорость обучения

  • Используйте fp32 вместо fp16

  • Проверьте данные на повреждения

Оценка стоимости

Типичные тарифы на рынке CLORE.AI (по состоянию на 2024 год):

GPU
Почасовая ставка
Дневная ставка
Сессия на 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены зависят от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для актуальных тарифов.

📚 См. также: Как дообучить LLaMA 3 на облачном GPU — пошаговое руководствоarrow-up-right

Экономьте деньги:

  • Используйте Спотовая рынок для гибких нагрузок (часто на 30–50% дешевле)

  • Оплатите с помощью CLORE токенов

  • Сравните цены у разных провайдеров

Последнее обновление

Это было полезно?