Entrenamiento DeepSpeed

Entrena modelos grandes de forma eficiente con DeepSpeed en GPUs de Clore.ai

Entrena modelos grandes de forma eficiente con Microsoft DeepSpeed.

circle-check

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es DeepSpeed?

DeepSpeed permite:

  • Entrenar modelos que no caben en la memoria GPU

  • Entrenamiento multi-GPU y multinodo

  • Optimización ZeRO (eficiencia de memoria)

  • Entrenamiento en precisión mixta

Etapas de ZeRO

Etapa
Ahorro de memoria
Velocidad

ZeRO-1

Estados del optimizador particionados

Rápido

ZeRO-2

+ Gradientes particionados

Equilibrado

ZeRO-3

+ Parámetros particionados

Ahorros máximos

ZeRO-Infinity

Descarga a CPU/NVMe

Modelos más grandes

Despliegue rápido

Imagen Docker:

Puertos:

Comando:

Instalación

Entrenamiento básico

Configuración de DeepSpeed

ds_config.json:

Script de entrenamiento

Configuración de ZeRO Etapa 2

Configuración de ZeRO Etapa 3

Para modelos grandes:

Con Hugging Face Transformers

Integración con Trainer

Entrenamiento multi-GPU

Comando de lanzamiento

Con torchrun

Entrenamiento multinodo

Archivo de hosts

hostfile:

Lanzar

Configuración de SSH

Configuraciones eficientes en memoria

Modelo de 7B en GPU de 24GB

Modelo de 13B en GPU de 24GB

Gradient Checkpointing

Ahorra memoria recomputando activaciones:

Guardar y cargar checkpoints

Guardar

Cargar

Guardar en formato HuggingFace

Monitoreo

TensorBoard

Weights & Biases

Problemas comunes

Memoria insuficiente

Entrenamiento lento

  • Reducir la descarga a CPU

  • Aumentar el tamaño del batch

  • Usar ZeRO Etapa 2 en lugar de 3

Errores NCCL

Consejos de rendimiento

Consejo
Efecto

Usar bf16 en lugar de fp16

Mejor estabilidad

Habilitar gradient checkpointing

Menos memoria

Ajustar el tamaño del batch

Mejor rendimiento

Usar descarga a NVMe

Modelos más grandes

Comparación de rendimiento

Modelo
GPUs
Etapa ZeRO
Velocidad de entrenamiento

7B

1x A100

ZeRO-3

~1000 tokens/s

7B

4x A100

ZeRO-2

~4000 tokens/s

13B

4x A100

ZeRO-3

~2000 tokens/s

70B

8x A100

ZeRO-3

~800 tokens/s

Solución de problemas

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Próximos pasos

Última actualización

¿Te fue útil?