Elige Bajo demanda (tarifa fija) o Spot (precio por puja)
Configura tu pedido:
Selecciona imagen Docker
Establece puertos (TCP para SSH, HTTP para interfaces web)
Agrega variables de entorno si es necesario
Introduce el comando de inicio
Selecciona pago: CLORE, BTC, o USDT/USDC
Crea el pedido y espera el despliegue
Accede a tu servidor
Encuentra los detalles de conexión en Mis Pedidos
Interfaces web: usa la URL del puerto HTTP
SSH: ssh -p <port> root@<proxy-address>
¿Qué es LoRA/QLoRA?
LoRA (Adaptación de baja dimensión) - Entrena pequeñas capas adaptadoras en lugar del modelo completo
QLoRA - LoRA con cuantización para usar aún menos VRAM
Entrenar modelo 7B en una sola RTX 3090
Entrenar modelo 70B en una sola A100
Requisitos
Modelo
Método
VRAM mínima
Recomendado
7B
QLoRA
12GB
RTX 3090
13B
QLoRA
20GB
RTX 4090
70B
QLoRA
48GB
A100 80GB
7B
LoRA completo
24GB
RTX 4090
Despliegue rápido
Imagen Docker:
Puertos:
Comando:
Accediendo a tu servicio
Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:
Ir a Mis Pedidos página
Haz clic en tu pedido
Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)
Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos a continuación.
Preparación del conjunto de datos
Formato de chat (recomendado)
Formato de instrucción
Formato Alpaca
Modelos modernos compatibles (2025)
Modelo
ID en HF
VRAM mínima (QLoRA)
Llama 3.1 / 3.3 8B
meta-llama/Llama-3.1-8B-Instruct
12GB
Qwen 2.5 7B / 14B
Qwen/Qwen2.5-7B-Instruct
12GB / 20GB
DeepSeek-R1-Distill (7B/8B)
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
12GB
Mistral 7B v0.3
mistralai/Mistral-7B-Instruct-v0.3
12GB
Gemma 2 9B
google/gemma-2-9b-it
14GB
Phi-4 14B
microsoft/phi-4
20GB
Script de fine-tuning QLoRA
Ejemplo moderno con PEFT 0.14+, Flash Attention 2, soporte DoRA y compatibilidad con Qwen2.5 / DeepSeek-R1:
Flash Attention 2
Flash Attention 2 reduce el uso de VRAM y acelera significativamente el entrenamiento. Requiere GPU Ampere+ (RTX 3090, RTX 4090, A100).
Configuración
VRAM (7B)
Velocidad
Atención estándar (fp16)
~22GB
línea base
Flash Attention 2 (bf16)
~16GB
+30%
Flash Attention 2 + QLoRA
~12GB
+30%
DoRA (LoRA descompuesto por peso)
DoRA (PEFT >= 0.14) descompone los pesos preentrenados en componentes de magnitud y dirección. Mejora la calidad del fine-tuning, especialmente para rangos más pequeños.
Ejemplos Qwen2.5 & DeepSeek-R1-Distill
Fine-tuning Qwen2.5
Fine-tuning DeepSeek-R1-Distill
Los modelos DeepSeek-R1-Distill (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) están enfocados en razonamiento. Fine-tunea para adaptar su estilo de cadena de pensamiento a tu dominio.
Usando Axolotl (más fácil)
Axolotl simplifica el fine-tuning con configs YAML:
Ejemplos de configuración de Axolotl
Modelo de chat
Modelo de código
Fusionando pesos LoRA
Después del entrenamiento, fusiona LoRA de nuevo en el modelo base:
Convertir a GGUF
Para uso con llama.cpp/Ollama:
Monitoreo del entrenamiento
Weights & Biases
TensorBoard
Mejores prácticas
Hiperparámetros
Parámetro
Modelo 7B
Modelo 13B
Modelo 70B
tamaño de lote
4
2
1
acumulación_grad
4
8
16
lr
2e-4
1e-4
5e-5
lora_r
64
32
16
épocas
3
2-3
1-2
Tamaño del dataset
Mínimo: 1.000 ejemplos
Bueno: 10.000+ ejemplos
Calidad > Cantidad
Evitando el sobreajuste
Entrenamiento Multi-GPU
Configuración DeepSpeed:
Guardado y exportación
Solución de problemas
Errores OOM
Reducir tamaño de lote
Aumentar acumulación de gradiente
Usa gradient_checkpointing=True
Reducir lora_r
La pérdida de entrenamiento no disminuye
Comprobar el formato de los datos
Aumentar la tasa de aprendizaje
Buscar problemas en los datos
Pérdida NaN
Reducir la tasa de aprendizaje
Usar fp32 en lugar de fp16
Comprobar si hay datos corruptos
Estimación de costos
Tarifas típicas del mercado CLORE.AI (a fecha de 2024):
GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas
RTX 3060
~$0.03
~$0.70
~$0.12
RTX 3090
~$0.06
~$1.50
~$0.25
RTX 4090
~$0.10
~$2.30
~$0.40
A100 40GB
~$0.17
~$4.00
~$0.70
A100 80GB
~$0.25
~$6.00
~$1.00
Los precios varían según el proveedor y la demanda. ConsulteCLORE.AI Marketplacepara tarifas actuales.
# Habilitar al cargar el modelo:
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
attn_implementation="flash_attention_2", # <-- añadir esto
torch_dtype=torch.bfloat16, # FA2 requiere bf16 o fp16
device_map="auto",
)
from peft import LoraConfig
# LoRA estándar
lora_config = LoraConfig(r=64, lora_alpha=16, use_dora=False, ...)
# DoRA — mismos parámetros, mejor calidad
lora_config = LoraConfig(r=64, lora_alpha=16, use_dora=True, ...)
# Nota: DoRA añade ~5-10% de sobrecarga de VRAM frente a LoRA estándar
# Nota: No compatible con modelos cuantizados (4-bit/8-bit) en todos los casos
MODEL_NAME = "Qwen/Qwen2.5-7B-Instruct"
# Para 14B: "Qwen/Qwen2.5-14B-Instruct" (necesita 20GB+ VRAM con QLoRA)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True, # Requerido para Qwen2.5
attn_implementation="flash_attention_2",
)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
# Qwen2.5 usa formato ChatML — usar apply_chat_template
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"},
{"role": "assistant", "content": "Hi there! How can I help?"},
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
# Variantes DeepSeek-R1-Distill
MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B" # 7B sobre base Qwen2.5
# MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B" # 8B sobre base Llama3
# MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B" # 14B (requiere A100)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True,
attn_implementation="flash_attention_2",
)
# DeepSeek-R1 usa etiquetas <think>...</think> para el razonamiento
# Conserva esto en los datos de entrenamiento para preservar la capacidad de cadena de pensamiento
example_format = """<|im_start|>user
Resuelve: ¿Cuál es 15 * 23?<|im_end|>
<|im_start|>assistant
<think>
15 * 23 = 15 * 20 + 15 * 3 = 300 + 45 = 345
</think>
La respuesta es 345.<|im_end|>"""
# Módulos objetivo LoRA para DeepSeek-R1-Distill (base Qwen2.5)
lora_config = LoraConfig(
r=32,
lora_alpha=16,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj"],
use_dora=True,
task_type="CAUSAL_LM",
)