Донастройка LLM

Дообучайте кастомные LLM с эффективными методиками на GPU Clore.ai

Обучайте собственную настраиваемую LLM с использованием эффективных методов дообучения на GPU CLORE.AI.

circle-check

Аренда на CLORE.AI

  1. Отфильтруйте по типу GPU, объему VRAM и цене

  2. Выберите On-Demand (фиксированная ставка) или Spot (цена по ставке)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Установите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • Добавьте переменные окружения при необходимости

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Моих заказах

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Что такое LoRA/QLoRA?

  • LoRA (Адаптация низкого ранга) — Обучайте небольшие адаптерные слои вместо полной модели

  • QLoRA - LoRA с квантованием для ещё меньшего потребления видеопамяти

  • Обучение модели 7B на одном RTX 3090

  • Обучение модели 70B на одном A100

Требования

Модель
Метод
Мин. VRAM
Рекомендуется

7B

QLoRA

12GB

RTX 3090

13B

QLoRA

20GB

RTX 4090

70B

QLoRA

48GB

A100 80GB

7B

Полный LoRA

24 ГБ

RTX 4090

Быстрое развертывание

Docker-образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

  1. Перейдите на Моих заказах страницу

  2. Нажмите на ваш заказ

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Подготовка датасета

Формат чата (рекомендуется)

Формат инструкции

Формат Alpaca

Поддерживаемые современные модели (2025)

Модель
HF ID
Мин. VRAM (QLoRA)

Llama 3.1 / 3.3 8B

meta-llama/Llama-3.1-8B-Instruct

12GB

Qwen 2.5 7B / 14B

Qwen/Qwen2.5-7B-Instruct

12GB / 20GB

DeepSeek-R1-Distill (7B/8B)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

12GB

Mistral 7B v0.3

mistralai/Mistral-7B-Instruct-v0.3

12GB

Gemma 2 9B

google/gemma-2-9b-it

14GB

Phi-4 14B

microsoft/phi-4

20GB

Скрипт дообучения QLoRA

Современный пример с PEFT 0.14+, Flash Attention 2, поддержкой DoRA и совместимостью с Qwen2.5 / DeepSeek-R1:

Flash Attention 2

Flash Attention 2 уменьшает использование VRAM и значительно ускоряет обучение. Требует GPU Ampere+ (RTX 3090, RTX 4090, A100).

Параметр
VRAM (7B)
Скорость

Стандартное внимание (fp16)

~22GB

базовый

Flash Attention 2 (bf16)

~16GB

+30%

Flash Attention 2 + QLoRA

~12GB

+30%

DoRA (Weight-Decomposed LoRA)

DoRA (PEFT >= 0.14) разлагает предобученные веса на компоненты величины и направления. Это улучшает качество дообучения, особенно для меньших рангов.

Примеры Qwen2.5 & DeepSeek-R1-Distill

Дообучение Qwen2.5

Дообучение DeepSeek-R1-Distill

Модели DeepSeek-R1-Distill (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) ориентированы на рассуждение. Дообучайте, чтобы адаптировать их стиль цепочек рассуждений к вашей предметной области.

Использование Axolotl (проще)

Axolotl упрощает дообучение с помощью YAML-конфигов:

Примеры конфигов Axolotl

Чат-модель

Модель для кода

Слияние весов LoRA

После обучения объедините LoRA обратно в базовую модель:

Конвертировать в GGUF

Для использования с llama.cpp/Ollama:

Мониторинг обучения

Weights & Biases

TensorBoard

Лучшие практики

Гиперпараметры

Параметр
Модель 7B
Модель 13B
Модель 70B

batch_size

4

2

1

grad_accum

4

8

16

lr

2e-4

1e-4

5e-5

lora_r

64

32

16

эпохи

3

2-3

1-2

Размер датасета

  • Минимум: 1 000 примеров

  • Хорошо: 10 000+ примеров

  • Качество важнее количества

Избежание переобучения

Обучение на нескольких GPU

Конфиг DeepSpeed:

Сохранение и экспорт

Устранение неполадок

Ошибки OOM

  • Уменьшите размер батча

  • Увеличьте градиентную аккумуляцию

  • Используйте gradient_checkpointing=True

  • Уменьшите lora_r

Проблемы: потеря при обучении не уменьшается

  • Проверьте формат данных

  • Увеличьте скорость обучения

  • Проверьте данные на ошибки

NaN в потере

  • Уменьшите скорость обучения

  • Используйте fp32 вместо fp16

  • Проверьте данные на повреждения

Оценка стоимости

Типичные ставки на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)

  • Платите с помощью CLORE токенов

  • Сравнивайте цены у разных провайдеров

Последнее обновление

Это было полезно?