Ajustar LLM

Ajusta LLMs personalizados con técnicas eficientes en GPUs de Clore.ai

Entrena tu propio LLM personalizado usando técnicas de afinamiento eficiente en GPUs de CLORE.AI.

circle-check

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es LoRA/QLoRA?

  • LoRA (Adaptación de Bajo Rango) - Entrena pequeñas capas adaptadoras en lugar del modelo completo

  • QLoRA - LoRA con cuantización para aún menos VRAM

  • Entrenar modelo 7B en una sola RTX 3090

  • Entrenar modelo 70B en una sola A100

Requisitos

Modelo
Método
VRAM mínima
Recomendado

7B

QLoRA

12GB

RTX 3090

13B

QLoRA

20GB

RTX 4090

70B

QLoRA

48GB

A100 80GB

7B

LoRA completo

24GB

RTX 4090

Despliegue rápido

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Preparación del conjunto de datos

Formato de Chat (Recomendado)

Formato de Instrucción

Formato Alpaca

Modelos Modernos Compatibles (2025)

Modelo
ID de HF
VRAM mínima (QLoRA)

Llama 3.1 / 3.3 8B

meta-llama/Llama-3.1-8B-Instruct

12GB

Qwen 2.5 7B / 14B

Qwen/Qwen2.5-7B-Instruct

12GB / 20GB

DeepSeek-R1-Distill (7B/8B)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

12GB

Mistral 7B v0.3

mistralai/Mistral-7B-Instruct-v0.3

12GB

Gemma 2 9B

google/gemma-2-9b-it

14GB

Phi-4 14B

microsoft/phi-4

20GB

Script de Afinamiento QLoRA

Ejemplo moderno con PEFT 0.14+, Flash Attention 2, soporte DoRA y compatibilidad con Qwen2.5 / DeepSeek-R1:

Flash Attention 2

Flash Attention 2 reduce el uso de VRAM y acelera el entrenamiento significativamente. Requiere GPU Ampere+ (RTX 3090, RTX 4090, A100).

Ajuste
VRAM (7B)
Velocidad

Atención estándar (fp16)

~22GB

línea base

Flash Attention 2 (bf16)

~16GB

+30%

Flash Attention 2 + QLoRA

~12GB

+30%

DoRA (LoRA Descompuesto por Peso)

DoRA (PEFT >= 0.14) descompone los pesos preentrenados en componentes de magnitud y dirección. Mejora la calidad del afinamiento, especialmente para rangos más pequeños.

Ejemplos Qwen2.5 & DeepSeek-R1-Distill

Afinamiento Qwen2.5

Afinamiento DeepSeek-R1-Distill

Los modelos DeepSeek-R1-Distill (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) están enfocados en razonamiento. Afinéalos para adaptar su estilo de cadena de pensamiento a tu dominio.

Usando Axolotl (Más fácil)

Axolotl simplifica el afinamiento con configs YAML:

Ejemplos de Configuración Axolotl

Modelo de Chat

Modelo de Código

Fusionando pesos LoRA

Después del entrenamiento, fusiona LoRA de nuevo en el modelo base:

Convertir a GGUF

Para uso con llama.cpp/Ollama:

Monitoreo del entrenamiento

Weights & Biases

TensorBoard

Mejores prácticas

Hiperparámetros

Parámetro
Modelo 7B
Modelo 13B
Modelo 70B

tamaño de batch

4

2

1

acumulación de gradiente

4

8

16

lr

2e-4

1e-4

5e-5

lora_r

64

32

16

épocas

3

2-3

1-2

Tamaño del Dataset

  • Mínimo: 1,000 ejemplos

  • Bueno: 10,000+ ejemplos

  • Calidad > Cantidad

Evitando sobreajuste

Entrenamiento multi-GPU

Configuración DeepSpeed:

Guardado y exportación

Solución de problemas

Errores OOM

  • Reducir el tamaño del lote

  • Aumentar la acumulación de gradiente

  • Usa gradient_checkpointing=True

  • Reducir lora_r

La pérdida de entrenamiento no disminuye

  • Revisar el formato de los datos

  • Aumentar la tasa de aprendizaje

  • Comprobar problemas en los datos

Pérdida NaN

  • Reducir la tasa de aprendizaje

  • Usar fp32 en lugar de fp16

  • Comprobar datos corruptos

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Última actualización

¿Te fue útil?