Compatibilidad de modelos

Matriz de compatibilidad de modelos de IA y GPUs para Clore.ai

Guía completa de qué modelos de IA se ejecutan en qué GPUs en CLORE.AI.

circle-check

Referencia rápida

Modelos de lenguaje (LLM)

Modelo
Parámetros
VRAM mínima
Recomendado
Cuantización

Llama 3.2

1B

2GB

4GB

Q4, Q8, FP16

Llama 3.2

3B

4GB

6GB

Q4, Q8, FP16

Llama 3.1/3

8B

6GB

12GB

Q4, Q8, FP16

Mistral

7B

6GB

12GB

Q4, Q8, FP16

Qwen 2.5

7B

6GB

12GB

Q4, Q8, FP16

Qwen 2.5

14B

12GB

16GB

Q4, Q8

Qwen 2.5

32B

20GB

24GB

Q4, Q8

Llama 3.1

70B

40GB

48GB

Q4, Q8

Qwen 2.5

72B

48GB

80GB

Q4, Q8

Mixtral

8x7B

24GB

48GB

Q4

DeepSeek-V3

671B

320GB+

640GB

FP8

DeepSeek-R1

671B

320GB+

8x H100

FP8, modelo de razonamiento

DeepSeek-R1-Distill

32B

20GB

2x A100 / RTX 5090

Q4/Q8

Modelos de generación de imágenes

Modelo
VRAM mínima
Recomendado
Notas

SD 1.5

4GB

8GB

512x512 nativo

SD 2.1

6GB

8GB

768x768 nativo

SDXL

8GB

12GB

1024x1024 nativo

SDXL Turbo

8GB

12GB

1-4 pasos

SD3.5 Large (8B)

16GB

24GB

1024x1024, calidad avanzada

FLUX.1 schnell

12GB

16GB

4 pasos, rápido

FLUX.1 dev

16GB

24GB

20-50 pasos

TRELLIS

16GB

24GB (RTX 4090)

Generación 3D a partir de imágenes

Modelos de generación de video

Modelo
VRAM mínima
Recomendado
Salida

Stable Video Diffusion

16GB

24GB

4 s, 576x1024

AnimateDiff

12GB

16GB

2-4 s

LTX-Video

16GB

24GB (RTX 4090/3090)

5 s, 768x512, muy rápido

Wan2.1

24GB

40GB

5 s, 480p-720p

Hunyuan Video

40GB

80GB

5 s, 720p

OpenSora

24GB

40GB

Variable

Modelos de audio

Modelo
VRAM mínima
Recomendado
Tarea

Whisper tiny

1GB

2GB

Transcripción

Whisper base

1GB

2GB

Transcripción

Whisper small

2GB

4GB

Transcripción

Whisper medium

4GB

6GB

Transcripción

Whisper large-v3

6GB

10GB

Transcripción

Bark

8GB

12GB

Texto a voz

Stable Audio

8GB

12GB

Generación de música

Modelos de visión y visión-lenguaje

Modelo
VRAM mínima
Recomendado
Tarea

Llama 3.2 Vision 11B

12GB

16GB

Comprensión de imágenes

Llama 3.2 Vision 90B

48GB

80GB

Comprensión de imágenes

LLaVA 7B

8GB

12GB

QA visual

LLaVA 13B

16GB

24GB

QA visual

Qwen2.5-VL 7B

16GB

24GB (RTX 4090)

OCR de imágenes/video/documentos

Qwen2.5-VL 72B

48GB

2x A100 80GB

Máxima capacidad VL

Herramientas de ajuste fino y entrenamiento

Herramienta / Método
VRAM mínima
GPU recomendada
Tarea

Unsloth QLoRA 7B

12GB

RTX 3090 24GB

QLoRA 2x más rápido, baja VRAM

Unsloth QLoRA 13B

16GB

RTX 4090 24GB

Ajuste fino rápido

LoRA (estándar)

12GB

RTX 3090

Ajuste fino eficiente en parámetros

Ajuste fino completo 7B

40GB

A100 40GB

Entrenamiento de máxima calidad


Tablas detalladas de compatibilidad

LLM por GPU

GPU
Máx. modelo (Q4)
Máx. modelo (Q8)
Máx. modelo (FP16)

RTX 3060 12GB

13B

7B

3B

RTX 3070 8GB

7B

3B

1B

RTX 3080 10GB

7B

7B

3B

RTX 3090 24GB

30B

13B

7B

RTX 4070 Ti 12GB

13B

7B

3B

RTX 4080 16GB

14B

7B

7B

RTX 4090 24GB

30B

13B

7B

RTX 5090 32GB

70B

14B

13B

A100 40GB

70B

30B

14B

A100 80GB

70B

70B

30B

H100 80GB

70B

70B

30B

Generación de imágenes por GPU

GPU
SD 1.5
SDXL
FLUX schnell
FLUX dev

RTX 3060 12GB

✅ 512

✅ 768

⚠️ 512*

RTX 3070 8GB

✅ 512

⚠️ 512

RTX 3080 10GB

✅ 512

✅ 768

⚠️ 512*

RTX 3090 24GB

✅ 768

✅ 1024

✅ 1024

⚠️ 768*

RTX 4070 Ti 12GB

✅ 512

✅ 768

⚠️ 512*

RTX 4080 16GB

✅ 768

✅ 1024

✅ 768

⚠️ 512*

RTX 4090 24GB

✅ 1024

✅ 1024

✅ 1024

✅ 1024

RTX 5090 32GB

✅ 1024

✅ 1024

✅ 1536

✅ 1536

A100 40GB

✅ 1024

✅ 1024

✅ 1024

✅ 1024

A100 80GB

✅ 2048

✅ 2048

✅ 1536

✅ 1536

*Con descarga a CPU o tamaño de batch reducido

Generación de video por GPU

GPU
SVD
AnimateDiff
Wan2.1
Hunyuan

RTX 3060 12GB

⚠️ corto

RTX 3090 24GB

✅ 2-4 s

⚠️ 480p

RTX 4090 24GB

✅ 4 s

✅ 480p

⚠️ corto

RTX 5090 32GB

✅ 6 s

✅ 720p

✅ 5 s

A100 40GB

✅ 4 s

✅ 720p

✅ 5 s

A100 80GB

✅ 8 s

✅ 720p

✅ 10 s


Guía de cuantización

¿Qué es la cuantización?

La cuantización reduce la precisión del modelo para caber en menos VRAM:

Formato
Bits
Reducción de VRAM
Pérdida de calidad

FP32

32

Línea base

Ninguna

FP16

16

50%

Mínima

BF16

16

50%

Mínima

FP8

8

75%

Pequeña

Q8

8

75%

Pequeña

Q6_K

6

81%

Pequeña

Q5_K_M

5

84%

Moderada

Q4_K_M

4

87%

Moderada

Q3_K_M

3

91%

Notable

Q2_K

2

94%

Significativa

Calculadora de VRAM

Fórmula: VRAM (GB) ≈ Parámetros (B) × Bytes por parámetro

Tamaño del modelo
FP16
Q8
Q4

1B

2 GB

1 GB

0.5 GB

3B

6 GB

3 GB

1.5 GB

7B

14 GB

7 GB

3.5 GB

8B

16 GB

8 GB

4 GB

13B

26 GB

13 GB

6.5 GB

14B

28 GB

14 GB

7 GB

30B

60 GB

30 GB

15 GB

32B

64 GB

32 GB

16 GB

70B

140 GB

70 GB

35 GB

72B

144 GB

72 GB

36 GB

*Añadir ~20% para caché KV y sobrecarga

Cuantización recomendada por caso de uso

Caso de uso
Recomendado
Por qué

Chat/General

Q4_K_M

Buen equilibrio entre velocidad y calidad

Programación

Q5_K_M+

Mejor precisión para código

Escritura creativa

Q4_K_M

La velocidad importa más

Análisis

Q6_K+

Se necesita mayor precisión

Producción

FP16/BF16

Calidad máxima


Longitud de contexto vs VRAM

Cómo el contexto afecta la VRAM

Cada modelo tiene una ventana de contexto (máx. tokens). Contexto más largo = más VRAM:

Modelo
Contexto por defecto
Contexto máximo
VRAM por 1K tokens

Llama 3 8B

8K

128K

~0.3 GB

Llama 3 70B

8K

128K

~0.5 GB

Qwen 2.5 7B

8K

128K

~0.25 GB

Mistral 7B

8K

32K

~0.25 GB

Mixtral 8x7B

32K

32K

~0.4 GB

Contexto por GPU (Llama 3 8B Q4)

GPU
Contexto cómodo
Contexto máximo

RTX 3060 12GB

16K

32K

RTX 3090 24GB

64K

96K

RTX 4090 24GB

64K

96K

RTX 5090 32GB

96K

128K

A100 40GB

96K

128K

A100 80GB

128K

128K


Configuraciones multi-GPU

Paralelismo tensorial

Divide un modelo entre múltiples GPUs:

Configuración
VRAM total
Máx. modelo (FP16)

2x RTX 3090

48GB

30B

2x RTX 4090

48GB

30B

2x RTX 5090

64GB

32B

4x RTX 5090

128GB

70B

2x A100 40GB

80GB

70B

4x A100 40GB

160GB

100B+

8x A100 80GB

640GB

DeepSeek-V3

vLLM Multi-GPU


Guías específicas de modelos

Familia Llama 3.1

Variante
Parámetros
GPU mínima
Configuración recomendada

Llama 3.2 1B

1B

Cualquier 4GB

RTX 3060

Llama 3.2 3B

3B

Cualquier 6GB

RTX 3060

Llama 3.1 8B

8B

RTX 3060

RTX 3090

Llama 3.1 70B

70B

A100 40GB

2x A100 40GB

Llama 3.1 405B

405B

8x A100 80GB

8x H100

Familia Mistral/Mixtral

Variante
Parámetros
GPU mínima
Configuración recomendada

Mistral 7B

7B

RTX 3060

RTX 3090

Mixtral 8x7B

46.7B

RTX 3090

A100 40GB

Mixtral 8x22B

141B

2x A100 80GB

4x A100 80GB

Familia Qwen 2.5

Variante
Parámetros
GPU mínima
Configuración recomendada

Qwen 2.5 0.5B

0.5B

Cualquier 2GB

Cualquier 4GB

Qwen 2.5 1.5B

1.5B

Cualquier 4GB

RTX 3060

Qwen 2.5 3B

3B

Cualquier 6GB

RTX 3060

Qwen 2.5 7B

7B

RTX 3060

RTX 3090

Qwen 2.5 14B

14B

RTX 3090

RTX 4090

Qwen 2.5 32B

32B

RTX 4090

A100 40GB

Qwen 2.5 72B

72B

A100 40GB

A100 80GB

Modelos DeepSeek

Variante
Parámetros
GPU mínima
Configuración recomendada

DeepSeek-Coder 6.7B

6.7B

RTX 3060

RTX 3090

DeepSeek-Coder 33B

33B

RTX 4090

A100 40GB

DeepSeek-V2-Lite

15.7B

RTX 3090

A100 40GB

DeepSeek-V3

671B

8x A100 80GB

8x H100

DeepSeek-R1

671B

8x A100 80GB

8x H100 (FP8)

DeepSeek-R1-Distill-Qwen-32B

32B

RTX 5090 32GB

2x A100 40GB

DeepSeek-R1-Distill-Qwen-7B

7B

RTX 3090 24GB

RTX 4090


Solución de problemas

"CUDA out of memory"

  1. Reducir cuantización: Q8 → Q4

  2. Reducir la longitud del contexto: Reducir max_tokens

  3. Habilitar descarga a CPU: --cpu-offload o enable_model_cpu_offload()

  4. Usar batch más pequeño: batch_size=1

  5. Probar otra GPU: Necesita más VRAM

"Modelo demasiado grande"

  1. Usar versión cuantizada: modelos GGUF Q4

  2. Usar múltiples GPUs: Paralelismo tensorial

  3. Descargar a la CPU: Más lento pero funciona

  4. Elegir modelo más pequeño: 7B en lugar de 13B

"Generación lenta"

  1. Actualizar GPU: Más VRAM = menos descarga

  2. Usar cuantización más rápida: Q4 es más rápido que Q8

  3. Reducir contexto: Más corto = más rápido

  4. Habilitar flash attention: --flash-attn

Próximos pasos

Última actualización

¿Te fue útil?