Comparación de herramientas de fine-tuning

Elige el marco de ajuste fino adecuado para entrenar LLMs en los servidores GPU de Clore.ai.

circle-info

Ajuste fino adapta un LLM preentrenado a tu tarea o dominio específico. Esta guía compara las cuatro herramientas de código abierto líderes: Unsloth, Axolotl, LLaMA-Factory y TRL — cubriendo velocidad, eficiencia de memoria, modelos compatibles y facilidad de uso.


Matriz de decisión rápida

Unsloth
Axolotl
LLaMA-Factory
TRL

Mejor para

Velocidad + memoria

Entrenamiento basado en configuración

Apto para principiantes

Investigación + RLHF

Velocidad vs línea base

2-5× más rápido

~1× (estándar)

~1× (estándar)

~1× (estándar)

Reducción de memoria

70-80% menos

Estándar QLoRA

Estándar QLoRA

Estándar

RLHF/DPO/PPO

Básico

✅ (nativo)

Interfaz web

Estrellas en GitHub

23K+

9K+

37K+

10K+

Licencia

LGPL (gratis para uso no comercial)

Apache 2.0

Apache 2.0

Apache 2.0


Resumen

Unsloth

Unsloth se centra por completo en una cosa: hacer que el ajuste fino sea lo más rápido y eficiente en memoria posible. Reescribe operaciones clave en Triton y optimiza kernels CUDA.

Filosofía: Velocidad máxima, VRAM mínima — sin compromisos.

Axolotl

Axolotl envuelve HuggingFace Transformers con un sistema de configuración basado en YAML. Maneja la complejidad de la configuración del entrenamiento para que puedas concentrarte en los datos y los hiperparámetros.

Filosofía: Todo en YAML, flexibilidad total debajo.

LLaMA-Factory

LLaMA-Factory admite la gama más amplia de modelos (100+) y métodos de entrenamiento, con una interfaz web para la configuración. Es la opción más accesible para personas no dedicadas a la investigación.

Filosofía: Todo funciona, para todos.

TRL (Transformer Reinforcement Learning)

TRL es la biblioteca oficial de HuggingFace para RLHF. Es el estándar para PPO, DPO, ORPO y otros métodos de entrenamiento de alineación.

Filosofía: Investigación primero, entrenamiento de alineación nativo.


Benchmarks de velocidad

Comparación de velocidad de entrenamiento (tokens/segundo)

Configuración de prueba: LLaMA 3.1 8B, LoRA r=16, cuantización a 4 bits, tamaño de batch 4, A100 80GB

Herramienta
Tokens/seg
vs Línea base
Memoria (VRAM)

Unsloth (4-bit)

~4,200

2.8×

~8GB

Axolotl (QLoRA)

~1,500

1.0×

~16GB

LLaMA-Factory (QLoRA)

~1,480

~1.0×

~16GB

TRL (QLoRA)

~1,450

~0.97×

~18GB

Unsloth (16-bit completo)

~2,800

1.9×

~22GB

circle-check

Comparación de uso de VRAM

Entrenando LLaMA 3.1 8B, longitud de secuencia 2048:

Método
Unsloth
Axolotl
LLaMA-Factory
TRL

Ajuste fino completo (bf16)

60GB

70GB

72GB

74GB

LoRA (bf16)

18GB

24GB

25GB

26GB

QLoRA (4 bits)

8GB

16GB

16GB

18GB

QLoRA (4-bit, contexto largo)

12GB

24GB

24GB

26GB

GPU mínima para modelo 8B:

  • Unsloth: RTX 3080 (10GB) ✅

  • Otros: se requiere RTX 3090 (24GB)


Modelos compatibles

Matriz de compatibilidad de modelos

Familia de modelos
Unsloth
Axolotl
LLaMA-Factory
TRL

LLaMA 3.x

LLaMA 2

Mistral

Mixtral MoE

Gemma 2

Phi-3/3.5

Qwen 2.5

DeepSeek

Falcon

GPT-NeoX

Parcial

T5/FLAN

BERT/RoBERTa

Vision LLMs

Parcial

Parcial

Soporte de métodos de entrenamiento

Método
Unsloth
Axolotl
LLaMA-Factory
TRL

Ajuste fino completo

LoRA

QLoRA

DoRA

PEFT

SFT

✅ (nativo)

DPO

✅ (nativo)

PPO

✅ (nativo)

ORPO

KTO

✅ (nativo)

GRPO

CPT (preentrenamiento continuado)


Unsloth: Análisis en profundidad

Qué lo hace rápido

  1. Kernels Triton: Reescribe Flash Attention, la pérdida de entropía cruzada y LoRA en Triton

  2. Operaciones fusionadas: Combina múltiples operaciones CUDA en un solo kernel

  3. Checkpointing de gradiente inteligente: El modo "unsloth" ahorra ~30% más de memoria

  4. Backprop eficiente: Evita materializar grandes tensores intermedios

Instalación en Clore.ai

Script de entrenamiento completo

Debilidades: No hay PPO, limitado a la lista de modelos compatibles, licencia LGPL (verificar uso comercial)


Axolotl: Análisis en profundidad

Enfoque centrado en la configuración

Axolotl destaca cuando quieres configuraciones de entrenamiento reproducibles y versionadas:

Mejor para: Equipos que quieren ejecuciones de entrenamiento reproducibles y versionadas por configuración


LLaMA-Factory: Análisis en profundidad

Recorrido por la WebUI

Pestañas de la WebUI:

  1. Entrenar — configurar modelo base, dataset, método

  2. Evaluar — ejecutar benchmarks MMLU, CMMLU

  3. Chat — inferencia interactiva

  4. Exportar — fusionar LoRA, cuantizar a GGUF

Ejemplo de entrenamiento por CLI

Mejor para: Principiantes, equipos que desean WebUI, DPO/RLHF sin conocimiento profundo de investigación


TRL: Análisis en profundidad

Ejemplo de pipeline RLHF

TRL es la opción de referencia para entrenamiento de alineación:

Mejor para: Investigación de alineación, RLHF, implementaciones de DPO, PPO, ORPO


Elección de la herramienta adecuada

Flujo de decisión

Por tipo de equipo

Equipo
Recomendación
Razón

Investigador individual

Unsloth

Velocidad + notebooks Jupyter

Ingeniero de ML

Axolotl

Basado en configuración, reproducible

Equipo de producto

LLaMA-Factory

WebUI, amplio soporte de modelos

Equipo de alineación

TRL

Primitivas RLHF nativas

Startup

Unsloth + TRL

Velocidad + alineación cuando sea necesario


Recomendaciones de GPU en Clore.ai

Tarea
GPU mínima
Recomendado
Herramienta

7-8B LoRA (QLoRA)

RTX 3080 (10GB)

RTX 3090

Unsloth

13B LoRA

RTX 3090 (24GB)

A6000 (48GB)

Unsloth/Axolotl

70B LoRA

A100 (80GB)

2×A100

Axolotl/TRL

8B FT completo

A100 (40GB)

A100 (80GB)

Cualquiera

DPO/PPO 7B

RTX 4090 (24GB)

A6000 (48GB)

TRL


Enlaces útiles


Resumen

Herramienta
Mejor para
Ventaja clave

Unsloth

Entrenamiento crítico por velocidad, GPUs pequeñas

2-5× más rápido, 70% menos VRAM

Axolotl

Ejecuciones reproducibles basadas en configuración

YAML primero, muchos formatos de datos

LLaMA-Factory

100+ modelos, WebUI, ideal para principiantes

Mayor soporte de modelos, GUI

TRL

RLHF, DPO, investigación de alineación

Entrenamiento de alineación nativo

Para la mayoría de los casos de uso de Clore.ai: comienza con Unsloth (velocidad + eficiencia de memoria), añade TRL si necesitas entrenamiento de alineación DPO o PPO.

Última actualización

¿Te fue útil?