Configuración multi-GPU

Ejecuta grandes modelos de IA a través de múltiples GPUs en Clore.ai

Ejecute grandes modelos de IA en múltiples GPU en CLORE.AI.

circle-check

¿Cuándo necesita Multi-GPU?

Tamaño del modelo
Opción de GPU única
Opción Multi-GPU

≤13B

RTX 3090 (Q4)

No requerido

30B

RTX 4090 (Q4)

2x RTX 3090

70B

A100 40GB (Q4)

2x RTX 4090

70B FP16

-

2x A100 80GB

100B+

-

4x A100 80GB

405B

-

8x A100 80GB


Conceptos Multi-GPU

Paralelismo de Tensor (TP)

Divida las capas del modelo entre GPUs. Mejor para inferencia.

GPU 0: Capas 1-20
GPU 1: Capas 21-40

Pros: Menor latencia, configuración simple Contras: Requiere interconexión de alta velocidad

Paralelismo de Pipelining (PP)

Procese diferentes lotes en diferentes GPUs.

Pros: Mayor rendimiento Contras: Mayor latencia, más complejo

Paralelismo de Datos (DP)

Mismo modelo en múltiples GPUs, datos diferentes.

Pros: Escalado simple y lineal Contras: Cada GPU necesita el modelo completo


Configuración Multi-GPU para LLM

vLLM (Recomendado)

2 GPUs:

4 GPUs:

8 GPUs (para 405B):

Ollama Multi-GPU

Ollama usa automáticamente múltiples GPUs cuando están disponibles:

Limitar a GPUs específicas:

Text Generation Inference (TGI)

llama.cpp


Generación de Imágenes Multi-GPU

ComfyUI

ComfyUI puede descargar diferentes modelos en distintas GPUs:

Ejecutar VAE en una GPU separada:

Stable Diffusion WebUI

Habilitar multi-GPU en webui-user.sh:

FLUX Multi-GPU


Entrenamiento Multi-GPU

PyTorch Distribuido

Lanzamiento:

DeepSpeed

Lanzamiento:

Accelerate (HuggingFace)

Configurar:

Kohya Training (LoRA)


Selección de GPU

Comprobar GPUs disponibles

Seleccionar GPUs específicas

Variable de entorno:

En Python:


Optimización del rendimiento

Conexión
Ancho de banda
Mejor para

NVLink

600 GB/s

Paralelismo tensorial

PCIe 4.0

32 GB/s

Paralelismo de datos

PCIe 5.0

64 GB/s

Cargas de trabajo mixtas

Comprobar estado de NVLink:

Configuración óptima

GPUs
Tamaño TP
Tamaño PP
Notas

2

2

1

Paralelismo de tensor simple

4

4

1

Requiere NVLink

4

2

2

Amigable con PCIe

8

8

1

Paralelismo de tensor completo

8

4

2

Paralelismo mixto

Equilibrio de memoria

División uniforme (por defecto):

División personalizada (GPUs desiguales):


Solución de problemas

"Error NCCL"

"Memoria insuficiente en la GPU X"

"Rendimiento Multi-GPU lento"

  1. Comprobar conectividad NVLink

  2. Reducir tamaño de paralelismo de tensor

  3. Usar paralelismo de pipeline en su lugar

  4. Comprobar el cuello de botella de la CPU

"GPUs no detectadas"


Optimización de costos

Cuándo vale la pena Multi-GPU

Escenario
GPU única
Multi-GPU
Ganador

Uso ocasional de 70B

A100 80GB ($0.25/hr)

2x RTX 4090 ($0.20/hr)

Multi

70B en producción

A100 40GB ($0.17/hr)

2x A100 40GB ($0.34/hr)

Única (Q4)

Entrenamiento 7B

RTX 4090 ($0.10/hr)

2x RTX 4090 ($0.20/hr)

Depende del tiempo

Configuraciones rentables

Caso de uso
Configuración
~Costo/hr

Inferencia 70B

2x RTX 3090

$0.12

Inferencia rápida 70B

2x A100 40GB

$0.34

70B FP16

2x A100 80GB

$0.50

Entrenamiento 13B

2x RTX 4090

$0.20


Configuraciones de ejemplo

Servidor de Chat 70B

DeepSeek-V3 (671B)

Pipeline de Imagen + LLM


Próximos pasos

Última actualización

¿Te fue útil?