Сравнение инструментов для тонкой настройки

Выберите подходящий фреймворк для дообучения LLM на GPU-серверах Clore.ai.

circle-info

Дообучение адаптирует предварительно обученную LLM под вашу конкретную задачу или домен. Это руководство сравнивает четыре ведущих открытых инструмента: Unsloth, Axolotl, LLaMA-Factory и TRL — охватывая скорость, эффективность памяти, поддерживаемые модели и простоту использования.


Краткая матрица принятия решений

Unsloth
Axolotl
LLaMA-Factory
TRL

Лучше всего для

Скорость + память

Обучение через конфигурацию

Подходит для новичков

Исследования + RLHF

Скорость vs базовая

2-5× быстрее

~1× (стандарт)

~1× (стандарт)

~1× (стандарт)

Снижение использования памяти

На 70-80% меньше

Стандарт QLoRA

Стандарт QLoRA

Стандарт

RLHF/DPO/PPO

Базовый

✅ (встроено)

Веб-интерфейс

Звезды на GitHub

23K+

9K+

37K+

10K+

Лицензия

LGPL (бесплатно для некоммерческого использования)

Apache 2.0

Apache 2.0

Apache 2.0


Обзор

Unsloth

Unsloth целенаправленно сосредоточен на одном: сделать дообучение максимально быстрым и экономичным по памяти. Он переписывает ключевые операции на Triton и оптимизирует CUDA-ядра.

Философия: Максимальная скорость, минимальное использование VRAM — без компромиссов.

Axolotl

Axolotl оборачивает HuggingFace Transformers системой конфигурации на YAML. Он снимает сложность настройки обучения, чтобы вы могли сосредоточиться на данных и гиперпараметрах.

Философия: Всё через YAML, при этом под капотом полная гибкость.

LLaMA-Factory

LLaMA-Factory поддерживает самый широкий набор моделей (100+) и методов обучения, с веб-интерфейсом для конфигурации. Это наиболее доступный вариант для не исследователей.

Философия: Всё работает, для всех.

TRL (Transformer Reinforcement Learning)

TRL — официальная библиотека HuggingFace для RLHF. Это стандарт для PPO, DPO, ORPO и других методов выравнивания.

Философия: В первую очередь для исследований, выравнивание встроено нативно.


Бенчмарки скорости

Сравнение скорости обучения (токенов/секунда)

Условия теста: LLaMA 3.1 8B, LoRA r=16, 4-битная квантзация, размер батча 4, A100 80GB

Инструмент
Токенов/с
vs Базовый
Память (VRAM)

Unsloth (4-бит)

~4,200

2.8×

~8 ГБ

Axolotl (QLoRA)

~1,500

1.0×

~16GB

LLaMA-Factory (QLoRA)

~1,480

~1.0×

~16GB

TRL (QLoRA)

~1,450

~0.97×

~18GB

Unsloth (полный 16-бит)

~2,800

1.9×

~22GB

circle-check

Сравнение использования VRAM

Обучение LLaMA 3.1 8B, длина последовательности 2048:

Метод
Unsloth
Axolotl
LLaMA-Factory
TRL

Полное дообучение (bf16)

60GB

70GB

72GB

74GB

LoRA (bf16)

18GB

24GB

25GB

26GB

QLoRA (4-бит)

8 ГБ

16GB

16GB

18GB

QLoRA (4-бит, длинный контекст)

12GB

24GB

24GB

26GB

Минимальная видеокарта для модели 8B:

  • Unsloth: RTX 3080 (10GB) ✅

  • Остальные: требуется RTX 3090 (24GB)


Поддерживаемые модели

Матрица поддержки моделей

Семейство моделей
Unsloth
Axolotl
LLaMA-Factory
TRL

LLaMA 3.x

LLaMA 2

Mistral

Mixtral MoE

Gemma 2

Phi-3/3.5

Qwen 2.5

DeepSeek

Falcon

GPT-NeoX

Частично

T5/FLAN

BERT/RoBERTa

Vision LLMs

Частично

Частично

Поддержка методов обучения

Метод
Unsloth
Axolotl
LLaMA-Factory
TRL

Полное дообучение

LoRA

QLoRA

DoRA

PEFT

SFT

✅ (встроено)

DPO

✅ (встроено)

PPO

✅ (встроено)

ORPO

KTO

✅ (встроено)

GRPO

CPT (продолженное предобучение)


Unsloth: подробности

Что делает его быстрым

  1. Triton-ядра: Переписывает Flash Attention, функцию потерь cross-entropy и LoRA на Triton

  2. Слитые операции: Объединяет несколько CUDA-операций в одно ядро

  3. Умная проверка градиентов (gradient checkpointing): Режим "unsloth" сохраняет примерно на 30% больше памяти

  4. Эффективный обратный проход: Избегает материализации больших промежуточных тензоров

Установка на Clore.ai

Полный скрипт обучения

Слабые стороны: Нет PPO, ограничено списком поддерживаемых моделей, лицензия LGPL (проверяйте для коммерческого использования)


Axolotl: подробности

Подход с приоритетом конфигурации

Axolotl проявляет силу, когда нужны воспроизводимые, версионируемые конфигурации обучения:

Лучше всего для: Команды, которые хотят воспроизводимые, версионируемые прогонки обучения


LLaMA-Factory: подробности

Обзор WebUI

Вкладки WebUI:

  1. Train — настройка базовой модели, датасета, метода

  2. Оценка — запуск бенчмарков MMLU, CMMLU

  3. Чат — интерактивный вывод

  4. Экспорт — объединение LoRA, квантование в GGUF

Пример обучения через CLI

Лучше всего для: Новички, команды, которые хотят WebUI, DPO/RLHF без глубоких исследовательских знаний


TRL: подробности

Пример пайплайна RLHF

TRL — стандарт для обучения выравниванию:

Лучше всего для: Исследования по выравниванию, RLHF, реализации DPO, PPO, ORPO


Выбор подходящего инструмента

Схема принятия решения

По типу команды

Команда
Рекомендация
Причина

Индивидуальный исследователь

Unsloth

Скорость + Jupyter ноутбуки

ML-инженер

Axolotl

Управление через конфигурации, воспроизводимость

Продуктовая команда

LLaMA-Factory

WebUI, широкая поддержка моделей

Команда по выравниванию

TRL

Нативные примитивы RLHF

Стартап

Unsloth + TRL

Скорость + выравнивание при необходимости


Рекомендации Clore.ai по GPU

Задача
Минимальные GPU
Рекомендуется
Инструмент

7-8B LoRA (QLoRA)

RTX 3080 (10GB)

RTX 3090

Unsloth

13B LoRA

RTX 3090 (24GB)

A6000 (48GB)

Unsloth/Axolotl

70B LoRA

A100 (80GB)

2×A100

Axolotl/TRL

8B Полное FT

A100 (40GB)

A100 (80GB)

Любая

DPO/PPO 7B

RTX 4090 (24GB)

A6000 (48GB)

TRL


Полезные ссылки


Резюме

Инструмент
Лучше всего для
Ключевое преимущество

Unsloth

Обучение, критичное к скорости, маленькие GPU

2-5× быстрее, на 70% меньше VRAM

Axolotl

Управление через конфигурации, воспроизводимые прогоны

YAML в приоритете, множество форматов данных

LLaMA-Factory

100+ моделей, WebUI, для новичков

Наибольшая поддержка моделей, GUI

TRL

RLHF, DPO, исследования по выравниванию

Нативное обучение выравниванию

Для большинства случаев использования Clore.ai: начните с Unsloth (скорость + эффективность памяти), добавьте TRL если вам нужно обучение по выравниванию DPO или PPO.

Последнее обновление

Это было полезно?