Fine-tune LLM

Ajusta LLMs personalizados con técnicas eficientes en las GPU de Clore.ai

Entrena tu propio LLM personalizado usando técnicas de ajuste fino eficientes en GPUs de CLORE.AI.

circle-check

Alquiler en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elige Bajo demanda (tarifa fija) o Spot (precio por puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es LoRA/QLoRA?

  • LoRA (Adaptación de baja dimensión) - Entrena pequeñas capas adaptadoras en lugar del modelo completo

  • QLoRA - LoRA con cuantización para usar aún menos VRAM

  • Entrenar modelo 7B en una sola RTX 3090

  • Entrenar modelo 70B en una sola A100

Requisitos

Modelo
Método
VRAM mínima
Recomendado

7B

QLoRA

12GB

RTX 3090

13B

QLoRA

20GB

RTX 4090

70B

QLoRA

48GB

A100 80GB

7B

LoRA completo

24GB

RTX 4090

Despliegue rápido

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos a continuación.

Preparación del conjunto de datos

Formato de chat (recomendado)

Formato de instrucción

Formato Alpaca

Modelos modernos compatibles (2025)

Modelo
ID en HF
VRAM mínima (QLoRA)

Llama 3.1 / 3.3 8B

meta-llama/Llama-3.1-8B-Instruct

12GB

Qwen 2.5 7B / 14B

Qwen/Qwen2.5-7B-Instruct

12GB / 20GB

DeepSeek-R1-Distill (7B/8B)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

12GB

Mistral 7B v0.3

mistralai/Mistral-7B-Instruct-v0.3

12GB

Gemma 2 9B

google/gemma-2-9b-it

14GB

Phi-4 14B

microsoft/phi-4

20GB

Script de fine-tuning QLoRA

Ejemplo moderno con PEFT 0.14+, Flash Attention 2, soporte DoRA y compatibilidad con Qwen2.5 / DeepSeek-R1:

Flash Attention 2

Flash Attention 2 reduce el uso de VRAM y acelera significativamente el entrenamiento. Requiere GPU Ampere+ (RTX 3090, RTX 4090, A100).

Configuración
VRAM (7B)
Velocidad

Atención estándar (fp16)

~22GB

línea base

Flash Attention 2 (bf16)

~16GB

+30%

Flash Attention 2 + QLoRA

~12GB

+30%

DoRA (LoRA descompuesto por peso)

DoRA (PEFT >= 0.14) descompone los pesos preentrenados en componentes de magnitud y dirección. Mejora la calidad del fine-tuning, especialmente para rangos más pequeños.

Ejemplos Qwen2.5 & DeepSeek-R1-Distill

Fine-tuning Qwen2.5

Fine-tuning DeepSeek-R1-Distill

Los modelos DeepSeek-R1-Distill (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) están enfocados en razonamiento. Fine-tunea para adaptar su estilo de cadena de pensamiento a tu dominio.

Usando Axolotl (más fácil)

Axolotl simplifica el fine-tuning con configs YAML:

Ejemplos de configuración de Axolotl

Modelo de chat

Modelo de código

Fusionando pesos LoRA

Después del entrenamiento, fusiona LoRA de nuevo en el modelo base:

Convertir a GGUF

Para uso con llama.cpp/Ollama:

Monitoreo del entrenamiento

Weights & Biases

TensorBoard

Mejores prácticas

Hiperparámetros

Parámetro
Modelo 7B
Modelo 13B
Modelo 70B

tamaño de lote

4

2

1

acumulación_grad

4

8

16

lr

2e-4

1e-4

5e-5

lora_r

64

32

16

épocas

3

2-3

1-2

Tamaño del dataset

  • Mínimo: 1.000 ejemplos

  • Bueno: 10.000+ ejemplos

  • Calidad > Cantidad

Evitando el sobreajuste

Entrenamiento Multi-GPU

Configuración DeepSpeed:

Guardado y exportación

Solución de problemas

Errores OOM

  • Reducir tamaño de lote

  • Aumentar acumulación de gradiente

  • Usa gradient_checkpointing=True

  • Reducir lora_r

La pérdida de entrenamiento no disminuye

  • Comprobar el formato de los datos

  • Aumentar la tasa de aprendizaje

  • Buscar problemas en los datos

Pérdida NaN

  • Reducir la tasa de aprendizaje

  • Usar fp32 en lugar de fp16

  • Comprobar si hay datos corruptos

Estimación de costos

Tarifas típicas del mercado CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulte CLORE.AI Marketplacearrow-up-right para tarifas actuales.

📚 Véase también: Cómo ajustar finamente LLaMA 3 en una GPU en la nube — Guía paso a pasoarrow-up-right

Ahorrar dinero:

  • Usa Spot mercado para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Pagar con CLORE fichas

  • Comparar precios entre diferentes proveedores

Última actualización

¿Te fue útil?