LLaMA-Factory

Ajusta más de 100 LLMs con LoRA/QLoRA y una interfaz web en las GPU de Clore.ai usando LLaMA-Factory

LLaMA-Factory es el marco de ajuste fino de código abierto más completo, que admite más de 100 modelos de lenguaje, incluidas todas las variantes de LLaMA, Qwen, Mistral, Phi, Falcon, ChatGLM y más. Ofrece LoRA, QLoRA, ajuste fino completo, RLHF, DPO y PPO, todo a través de una interfaz web intuitiva (LLaMA Board) o CLI. Los servidores GPU bajo demanda de CLORE.AI lo convierten en la plataforma perfecta para lanzar trabajos de ajuste fino a una fracción del costo de los proveedores en la nube.

circle-check

Requisitos del servidor

Parámetro
Mínimo
Recomendado

RAM

16 GB

32 GB+

VRAM

8 GB (QLoRA)

24 GB+

Disco

50 GB

200 GB+

GPU

NVIDIA RTX 2080+

A100, RTX 4090

circle-info

El método de entrenamiento determina los requisitos de GPU:

  • QLoRA (4 bits): 8 GB de VRAM para modelos 7B, 16 GB para 13B

  • LoRA (float16): 16 GB de VRAM para modelos 7B, 40 GB para 13B

  • Ajuste fino completo: ~14 GB de VRAM por cada 7B parámetros (+ estados del optimizador)

  • Multi-GPU (DeepSpeed/FSDP) escala a través de cualquier número de GPUs

Despliegue rápido en CLORE.AI

Imagen Docker: hiyouga/llamafactory:latest

Puertos: 22/tcp, 7860/http

Variables de entorno:

Variable
Ejemplo
Descripción

HF_TOKEN

hf_xxx...

Token de HuggingFace para modelos restringidos

WANDB_API_KEY

xxx...

Weights & Biases para seguimiento de experimentos

CUDA_VISIBLE_DEVICES

0,1

GPUs a usar

Configuración paso a paso

1. Alquila un servidor GPU en CLORE.AI

Visita CLORE.AI Marketplacearrow-up-right y seleccione según su tarea:

Tarea
VRAM
GPU recomendada

QLoRA 7B

8 GB

RTX 3070/2080

QLoRA 13B

16 GB

RTX 3090/A4000

LoRA 7B

16 GB

RTX 3090/A4000

LoRA 13B

40 GB

A6000/A100 40GB

FT completo 7B

80 GB

A100 80GB

Multi-GPU

Varía

2-8× cualquier GPU

2. Conéctate por SSH a tu servidor

3. Crear directorios de trabajo

4. Obtener la imagen Docker

5. Lanzar LLaMA-Factory

Lanzar con UI web (LLaMA Board):

Con seguimiento de Weights & Biases:

Multi-GPU con DeepSpeed (4 GPUs):

6. Acceder a la interfaz web

Verifique los registros y obtenga la URL:

Su URL http_pub de CLORE.AI para el puerto 7860:


Ejemplos de uso

Ejemplo 1: Ajuste fino LoRA mediante la UI web (LLaMA Board)

  1. Abra LLaMA Board en su URL de CLORE.AI

  2. Vaya a la Entrenar pestaña

  3. Configurar:

    • Nombre del modelo: LLaMA-3Meta-Llama-3-8B-Instruct

    • Etapa de entrenamiento: Ajuste fino supervisado

    • Conjunto de datos: Seleccione su conjunto de datos (o cargue uno personalizado)

    • Método de ajuste fino: lora

    • Rango LoRA: 8 (más alto = más parámetros entrenados)

    • Tasa de aprendizaje: 1e-4

    • Épocas: 3

    • Directorio de salida: llama3-finetuned

  4. Haz clic Iniciar para comenzar el entrenamiento

  5. Monitoree las curvas de pérdida en el Pérdida gráfico

Ejemplo 2: Ajuste fino QLoRA desde CLI

Prepare un archivo de configuración YAML de entrenamiento:

Ejemplo 3: Subir conjunto de datos personalizado

Cree un conjunto de datos personalizado en formato Alpaca:

Luego seleccione my_dataset en el desplegable Dataset de LLaMA Board.

Ejemplo 4: DPO (Optimización Directa por Preferencias)

Ejemplo 5: Inferencia con modelo ajustado

Después del entrenamiento, pruebe su modelo:

O exporte el modelo fusionado:


Configuración

Parámetros clave de entrenamiento

Parámetro
Valor típico
Descripción

lora_rank

8–64

Rango LoRA (más alto = más expresivo)

lora_alpha

2× rango

Escalado alpha de LoRA

lora_dropout

0.0–0.1

Dropout para capas LoRA

lora_target

all

En qué capas aplicar LoRA

learning_rate

1e-4

Tasa de aprendizaje inicial

num_train_epochs

1–5

Épocas de entrenamiento

per_device_train_batch_size

1–4

Tamaño de batch por GPU

gradient_accumulation_steps

4–16

Multiplicador efectivo de batch

cutoff_len

1024–4096

Longitud máxima de secuencia

quantization_bit

4 u 8

Bits de cuantización QLoRA

warmup_ratio

0.05–0.1

Fracción de calentamiento de LR

lr_scheduler_type

cosine

Programa de LR

Métodos de ajuste fino compatibles

Método
Uso de memoria
Calidad
Cuándo usar

completo

Muy alto

Mejor

VRAM ilimitada

freeze

Medio

Bueno

Congelar capas base

lora

Bajo

Muy bueno

Elección predeterminada

qlora (lora+cuant)

Más bajo

Bueno

VRAM limitada

Entrenamiento Multi-GPU con DeepSpeed

Para entrenar en múltiples GPUs, lance con torchrun:


Consejos de rendimiento

1. Configuraciones QLoRA óptimas por GPU

8 GB VRAM (RTX 3070):

24 GB VRAM (RTX 3090/4090):

80 GB VRAM (A100):

2. Flash Attention 2 para contextos más largos

Esto permite entrenar con secuencias 2× más largas usando la misma VRAM.

3. Gradient Checkpointing

Ahorra VRAM a costa de un entrenamiento ~20% más lento:

4. Elija el objetivo LoRA correcto

5. Congelar capas superiores para adaptación rápida

Mucho más rápido que LoRA completo para adaptación a tareas sencillas.

6. Monitorear con TensorBoard

Agregue el puerto 6006 a su pedido de CLORE.AI para acceder a TensorBoard.


Solución de problemas

Problema: "CUDA out of memory" durante el entrenamiento

  1. Reduzca el tamaño del lote: per_device_train_batch_size: 1

  2. Habilite gradient checkpointing: gradient_checkpointing: true

  3. Reduzca la longitud del contexto: cutoff_len: 512

  4. Use QLoRA (4 bits): quantization_bit: 4

  5. Reduzca el rango LoRA: lora_rank: 4

Problema: La pérdida de entrenamiento no disminuye

  • Verifique la tasa de aprendizaje — pruebe 5e-5 o 2e-4

  • Verifique que el formato del conjunto de datos coincida con la plantilla

  • Aumente lora_rank (8→16→32)

  • Verifique que lora_target: all esté configurado

Problema: Velocidad de entrenamiento lenta

Si la GPU está < 80% utilizada:

  • Aumente el tamaño del lote

  • Use Flash Attention: flash_attn: fa2

  • Eliminar gradient_checkpointing si la VRAM lo permite

Problema: Modelo no encontrado en la UI web

Luego actualice la lista de modelos en LLaMA Board.

Problema: Errores en el formato del conjunto de datos

Todos los formatos de conjuntos de datos deben coincidir con dataset_info.json especificación:

Problema: Puerto WebUI no accesible

Asegúrese de que LLaMA-Factory inició el servidor Gradio:

Añade --share bandera para una URL pública de Gradio como alternativa.


Enlaces


Recomendaciones de GPU en Clore.ai

Caso de uso
GPU recomendada
Coste estimado en Clore.ai

Desarrollo/Pruebas

RTX 3090 (24GB)

~$0.12/gpu/hr

Ajuste fino (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Modelos grandes (70B+)

A100 80GB

~$1.20/gpu/hr

Entrenamiento Multi-GPU

2-4x A100 80GB

~$2.40–$4.80/hr

💡 Todos los ejemplos en esta guía pueden desplegarse en Clore.aiarrow-up-right servidores GPU. Navega las GPUs disponibles y alquila por hora — sin compromisos, acceso root completo.

Última actualización

¿Te fue útil?