LLaMA-Factory

Тонкая настройка 100+ LLM с LoRA/QLoRA и веб-интерфейсом на GPU Clore.ai с использованием LLaMA-Factory

LLaMA-Factory — это самый полнофункциональный фреймворк с открытым исходным кодом для дообучения моделей, поддерживающий более 100 моделей, включая все варианты LLaMA, Qwen, Mistral, Phi, Falcon, ChatGLM и другие. Он предоставляет LoRA, QLoRA, полное дообучение, RLHF, DPO и PPO — всё через удобный веб-интерфейс (LLaMA Board) или CLI. Серверы CLORE.AI с GPU по требованию делают его идеальной платформой для запуска задач дообучения по цене намного ниже облачных провайдеров.

circle-check

Требования к серверу

Параметр
Минимум
Рекомендуется

ОЗУ

16 ГБ

32 ГБ+

VRAM

8 ГБ (QLoRA)

24 ГБ+

Диск

50 ГБ

200 ГБ+

GPU

NVIDIA RTX 2080+

A100, RTX 4090

circle-info

Метод обучения определяет требования к GPU:

  • QLoRA (4-бит): 8 ГБ VRAM для моделей 7B, 16 ГБ для 13B

  • LoRA (float16): 16 ГБ VRAM для моделей 7B, 40 ГБ для 13B

  • Полное дообучение: ~14 ГБ VRAM на 7B параметров (+ состояния оптимизатора)

  • Multi-GPU (DeepSpeed/FSDP) масштабируется на любое количество GPU

Быстрое развертывание на CLORE.AI

Docker-образ: hiyouga/llamafactory:latest

Порты: 22/tcp, 7860/http

Переменные окружения:

Переменная
Пример
Описание

HF_TOKEN

hf_xxx...

Токен HuggingFace для gated-моделей

WANDB_API_KEY

xxx...

Weights & Biases для отслеживания экспериментов

CUDA_VISIBLE_DEVICES

0,1

Какие GPU использовать

Пошаговая настройка

1. Арендуйте GPU-сервер на CLORE.AI

Перейдите на CLORE.AI Маркетплейсarrow-up-right и выбирайте в зависимости от вашей задачи:

Задача
VRAM
Рекомендуемый GPU

QLoRA 7B

8 ГБ

RTX 3070/2080

QLoRA 13B

16 ГБ

RTX 3090/A4000

LoRA 7B

16 ГБ

RTX 3090/A4000

LoRA 13B

40 ГБ

A6000/A100 40GB

Full FT 7B

80 ГБ

A100 80GB

Multi-GPU

Различается

2-8× любой GPU

2. Подключитесь по SSH к вашему серверу

3. Создайте рабочие каталоги

4. Скачайте Docker-образ

5. Запустите LLaMA-Factory

Запуск с веб-интерфейсом (LLaMA Board):

С отслеживанием Weights & Biases:

Multi-GPU с DeepSpeed (4 GPU):

6. Доступ к веб-интерфейсу

Просмотрите логи и получите URL:

Ваш CLORE.AI http_pub URL для порта 7860:


Примеры использования

Пример 1: LoRA дообучение через веб-интерфейс (LLaMA Board)

  1. Откройте LLaMA Board по вашему CLORE.AI URL

  2. Перейдите в Train вкладку

  3. Настройте:

    • Название модели: LLaMA-3Meta-Llama-3-8B-Instruct

    • Этап обучения: Supervised Fine-Tuning

    • Датасет: Выберите ваш датасет (или загрузите свой)

    • Метод дообучения: lora

    • LoRA rank: 8 (больше = больше обучаемых параметров)

    • Скорость обучения: 1e-4

    • Эпохи: 3

    • Каталог вывода: llama3-finetuned

  4. Нажмите Начать чтобы начать обучение

  5. Отслеживайте кривые потерь в Loss диаграмме

Пример 2: QLoRA дообучение через CLI

Подготовьте YAML конфиг для обучения:

Пример 3: Загрузка собственного датасета

Создайте пользовательский датасет в формате Alpaca:

Затем выберите my_dataset в выпадающем списке датасетов LLaMA Board.

Пример 4: DPO (Direct Preference Optimization)

Пример 5: Инференс с дообученной моделью

После обучения протестируйте вашу модель:

Или экспортируйте объединённую модель:


Конфигурация

Ключевые параметры обучения

Параметр
Типичное значение
Описание

lora_rank

8–64

LoRA rank (больше = более выразительная модель)

lora_alpha

2× rank

Масштабирование LoRA alpha

lora_dropout

0.0–0.1

Dropout для LoRA-слоёв

lora_target

all

На какие слои применять LoRA

learning_rate

1e-4

Начальная скорость обучения

num_train_epochs

1–5

Эпохи обучения

per_device_train_batch_size

1–4

Размер батча на GPU

gradient_accumulation_steps

4–16

Эффективный множитель батча

cutoff_len

1024–4096

Максимальная длина последовательности

quantization_bit

4 или 8

Биты квантования для QLoRA

warmup_ratio

0.05–0.1

Доля разогрева LR

lr_scheduler_type

cosine

График изменения LR

Поддерживаемые методы дообучения

Метод
Использование памяти
Качество
Когда использовать

full

Очень высокое

Лучший выбор

Неограниченная видеопамять

freeze

Средне

Хорошо

Заморозить базовые слои

lora

Низкое

Очень хорошо

Выбор по умолчанию

qlora (lora+quant)

Минимальное

Хорошо

Ограниченная видеопамять

Multi-GPU DeepSpeed обучение

Для обучения на нескольких GPU запустите с помощью torchrun:


Советы по производительности

1. Оптимальные настройки QLoRA по GPU

8 ГБ VRAM (RTX 3070):

24 ГБ VRAM (RTX 3090/4090):

80 ГБ VRAM (A100):

2. Flash Attention 2 для более длинного контекста

Это позволяет обучать с последовательностями в 2× большей длины на той же видеопамяти.

3. Gradient Checkpointing

Экономит видеопамять за счёт примерно 20% более медленного обучения:

4. Выберите правильную цель LoRA

5. Заморозьте верхние слои для быстрой адаптации

Гораздо быстрее, чем полный LoRA, для простой адаптации под задачу.

6. Мониторинг через TensorBoard

Добавьте порт 6006 в ваш заказ CLORE.AI, чтобы получить доступ к TensorBoard.


Устранение неполадок

Проблема: "CUDA out of memory" во время обучения

  1. Уменьшите размер батча: per_device_train_batch_size: 1

  2. Включите gradient checkpointing: gradient_checkpointing: true

  3. Уменьшите длину контекста: cutoff_len: 512

  4. Используйте QLoRA (4-бит): quantization_bit: 4

  5. Уменьшите LoRA rank: lora_rank: 4

Проблема: Потеря при обучении не уменьшается

  • Проверьте скорость обучения — попробуйте 5e-5 или 2e-4

  • Убедитесь, что формат датасета соответствует шаблону

  • Увеличьте lora_rank (8→16→32)

  • Проверьте, что lora_target: all установлено

Проблема: Медленная скорость обучения

Если загрузка GPU < 80%:

  • Увеличьте размер батча

  • Используйте Flash Attention: flash_attn: fa2

  • Удалите gradient_checkpointing если видеопамяти достаточно

Проблема: Модель не найдена в веб-интерфейсе

Затем обновите список моделей в LLaMA Board.

Проблема: Ошибки формата датасета

Все форматы датасетов должны соответствовать dataset_info.json спецификации:

Проблема: Порт WebUI недоступен

Убедитесь, что LLaMA-Factory запустил Gradio сервер:

Добавьте --share флаг для публичного Gradio URL в качестве альтернативы.


Ссылки


Рекомендации Clore.ai по GPU

Сценарий использования
Рекомендуемый GPU
Примерная стоимость на Clore.ai

Разработка/Тестирование

RTX 3090 (24GB)

~$0.12/gpu/hr

Дообучение (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Крупные модели (70B+)

A100 80GB

~$1.20/gpu/hr

Обучение на нескольких GPU

2-4x A100 80GB

~$2.40–$4.80/hr

💡 Все примеры в этом руководстве можно развернуть на Clore.aiarrow-up-right GPU-серверах. Просматривайте доступные GPU и арендуйте по часам — без обязательств, с полным root-доступом.

Последнее обновление

Это было полезно?