Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)
Configura tu pedido:
Selecciona imagen Docker
Establece puertos (TCP para SSH, HTTP para interfaces web)
Agrega variables de entorno si es necesario
Introduce el comando de inicio
Selecciona pago: CLORE, BTC, o USDT/USDC
Crea el pedido y espera el despliegue
Accede a tu servidor
Encuentra los detalles de conexión en Mis Pedidos
Interfaces web: Usa la URL del puerto HTTP
SSH: ssh -p <port> root@<proxy-address>
¿Qué es LoRA/QLoRA?
LoRA (Adaptación de Bajo Rango) - Entrena pequeñas capas adaptadoras en lugar del modelo completo
QLoRA - LoRA con cuantización para aún menos VRAM
Entrenar modelo 7B en una sola RTX 3090
Entrenar modelo 70B en una sola A100
Requisitos
Modelo
Método
VRAM mínima
Recomendado
7B
QLoRA
12GB
RTX 3090
13B
QLoRA
20GB
RTX 4090
70B
QLoRA
48GB
A100 80GB
7B
LoRA completo
24GB
RTX 4090
Despliegue rápido
Imagen Docker:
Puertos:
Comando:
Accediendo a tu servicio
Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:
Ir a Mis Pedidos página
Haz clic en tu pedido
Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)
Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.
Preparación del conjunto de datos
Formato de Chat (Recomendado)
Formato de Instrucción
Formato Alpaca
Modelos Modernos Compatibles (2025)
Modelo
ID de HF
VRAM mínima (QLoRA)
Llama 3.1 / 3.3 8B
meta-llama/Llama-3.1-8B-Instruct
12GB
Qwen 2.5 7B / 14B
Qwen/Qwen2.5-7B-Instruct
12GB / 20GB
DeepSeek-R1-Distill (7B/8B)
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
12GB
Mistral 7B v0.3
mistralai/Mistral-7B-Instruct-v0.3
12GB
Gemma 2 9B
google/gemma-2-9b-it
14GB
Phi-4 14B
microsoft/phi-4
20GB
Script de Afinamiento QLoRA
Ejemplo moderno con PEFT 0.14+, Flash Attention 2, soporte DoRA y compatibilidad con Qwen2.5 / DeepSeek-R1:
Flash Attention 2
Flash Attention 2 reduce el uso de VRAM y acelera el entrenamiento significativamente. Requiere GPU Ampere+ (RTX 3090, RTX 4090, A100).
Ajuste
VRAM (7B)
Velocidad
Atención estándar (fp16)
~22GB
línea base
Flash Attention 2 (bf16)
~16GB
+30%
Flash Attention 2 + QLoRA
~12GB
+30%
DoRA (LoRA Descompuesto por Peso)
DoRA (PEFT >= 0.14) descompone los pesos preentrenados en componentes de magnitud y dirección. Mejora la calidad del afinamiento, especialmente para rangos más pequeños.
Ejemplos Qwen2.5 & DeepSeek-R1-Distill
Afinamiento Qwen2.5
Afinamiento DeepSeek-R1-Distill
Los modelos DeepSeek-R1-Distill (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) están enfocados en razonamiento. Afinéalos para adaptar su estilo de cadena de pensamiento a tu dominio.
Usando Axolotl (Más fácil)
Axolotl simplifica el afinamiento con configs YAML:
Ejemplos de Configuración Axolotl
Modelo de Chat
Modelo de Código
Fusionando pesos LoRA
Después del entrenamiento, fusiona LoRA de nuevo en el modelo base:
Convertir a GGUF
Para uso con llama.cpp/Ollama:
Monitoreo del entrenamiento
Weights & Biases
TensorBoard
Mejores prácticas
Hiperparámetros
Parámetro
Modelo 7B
Modelo 13B
Modelo 70B
tamaño de batch
4
2
1
acumulación de gradiente
4
8
16
lr
2e-4
1e-4
5e-5
lora_r
64
32
16
épocas
3
2-3
1-2
Tamaño del Dataset
Mínimo: 1,000 ejemplos
Bueno: 10,000+ ejemplos
Calidad > Cantidad
Evitando sobreajuste
Entrenamiento multi-GPU
Configuración DeepSpeed:
Guardado y exportación
Solución de problemas
Errores OOM
Reducir el tamaño del lote
Aumentar la acumulación de gradiente
Usa gradient_checkpointing=True
Reducir lora_r
La pérdida de entrenamiento no disminuye
Revisar el formato de los datos
Aumentar la tasa de aprendizaje
Comprobar problemas en los datos
Pérdida NaN
Reducir la tasa de aprendizaje
Usar fp32 en lugar de fp16
Comprobar datos corruptos
Estimación de costos
Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):
GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas
RTX 3060
~$0.03
~$0.70
~$0.12
RTX 3090
~$0.06
~$1.50
~$0.25
RTX 4090
~$0.10
~$2.30
~$0.40
A100 40GB
~$0.17
~$4.00
~$0.70
A100 80GB
~$0.25
~$6.00
~$1.00
Los precios varían según el proveedor y la demanda. ConsultaCLORE.AI Marketplacepara las tarifas actuales.
Ahorra dinero:
Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)
# Habilitar al cargar el modelo:
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
attn_implementation="flash_attention_2", # <-- añadir esto
torch_dtype=torch.bfloat16, # FA2 requiere bf16 o fp16
device_map="auto",
)
from peft import LoraConfig
# LoRA estándar
lora_config = LoraConfig(r=64, lora_alpha=16, use_dora=False, ...)
# DoRA — mismos parámetros, mejor calidad
lora_config = LoraConfig(r=64, lora_alpha=16, use_dora=True, ...)
# Nota: DoRA añade ~5-10% de overhead de VRAM frente a LoRA estándar
# Nota: No compatible con modelos cuantizados (4-bit/8-bit) en todos los casos
MODEL_NAME = "Qwen/Qwen2.5-7B-Instruct"
# Para 14B: "Qwen/Qwen2.5-14B-Instruct" (necesita 20GB+ VRAM con QLoRA)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True, # Requerido para Qwen2.5
attn_implementation="flash_attention_2",
)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
# Qwen2.5 usa formato ChatML — usar apply_chat_template
messages = [
{"role": "system", "content": "Eres un asistente útil."},
{"role": "user", "content": "¡Hola!"},
{"role": "assistant", "content": "¡Hola! ¿En qué puedo ayudar?"},
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
# Variantes DeepSeek-R1-Distill
MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B" # 7B sobre base Qwen2.5
# MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B" # 8B sobre base Llama3
# MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B" # 14B (necesita A100)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True,
attn_implementation="flash_attention_2",
)
# DeepSeek-R1 usa etiquetas <think>...</think> para razonamiento
# Mantén esto en los datos de entrenamiento para preservar la capacidad de cadena de pensamiento
example_format = """<|im_start|>user
Resolver: ¿Cuál es 15 * 23?<|im_end|>
<|im_start|>assistant
<think>
15 * 23 = 15 * 20 + 15 * 3 = 300 + 45 = 345
</think>
La respuesta es 345.<|im_end|>"""
# Módulos objetivo LoRA para DeepSeek-R1-Distill (base Qwen2.5)
lora_config = LoraConfig(
r=32,
lora_alpha=16,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj"],
use_dora=True,
task_type="CAUSAL_LM",
)