Compatibilidad de modelos

Matriz de compatibilidad de modelos de IA y GPUs para Clore.ai

Guía completa de qué modelos de IA se ejecutan en qué GPUs en CLORE.AI.

Encuentra GPUs con la VRAM adecuada en CLORE.AI Marketplace.

Referencia rápida

Modelos de lenguaje (LLM)

Modelo

Parámetros

VRAM mínima

Recomendado

Cuantización

Llama 3.2

2GB

4GB

Q4, Q8, FP16

Llama 3.2

4GB

6GB

Q4, Q8, FP16

Llama 3.1/3

6GB

12GB

Q4, Q8, FP16

Mistral

6GB

12GB

Q4, Q8, FP16

Qwen 2.5

6GB

12GB

Q4, Q8, FP16

Qwen 2.5

14B

12GB

16GB

Q4, Q8

Qwen 2.5

32B

20GB

24GB

Q4, Q8

Llama 3.1

70B

40GB

48GB

Q4, Q8

Qwen 2.5

72B

48GB

80GB

Q4, Q8

Mixtral

8x7B

24GB

48GB

DeepSeek-V3

671B

320GB+

640GB

FP8

DeepSeek-R1

671B

320GB+

8x H100

FP8, modelo de razonamiento

DeepSeek-R1-Distill

32B

20GB

2x A100 / RTX 5090

Q4/Q8

Modelos de generación de imágenes

Modelo

VRAM mínima

Recomendado

Notas

SD 1.5

4GB

8GB

512x512 nativo

SD 2.1

6GB

8GB

768x768 nativo

SDXL

8GB

12GB

1024x1024 nativo

SDXL Turbo

8GB

12GB

1-4 pasos

SD3.5 Large (8B)

16GB

24GB

1024x1024, calidad avanzada

FLUX.1 schnell

12GB

16GB

4 pasos, rápido

FLUX.1 dev

16GB

24GB

20-50 pasos

TRELLIS

16GB

24GB (RTX 4090)

Generación 3D a partir de imágenes

Modelos de generación de video

Modelo

VRAM mínima

Recomendado

Salida

Stable Video Diffusion

16GB

24GB

4 s, 576x1024

AnimateDiff

12GB

16GB

2-4 s

LTX-Video

16GB

24GB (RTX 4090/3090)

5 s, 768x512, muy rápido

Wan2.1

24GB

40GB

5 s, 480p-720p

Hunyuan Video

40GB

80GB

5 s, 720p

OpenSora

24GB

40GB

Variable

Modelos de audio

Modelo

VRAM mínima

Recomendado

Tarea

Whisper tiny

1GB

2GB

Transcripción

Whisper base

1GB

2GB

Transcripción

Whisper small

2GB

4GB

Transcripción

Whisper medium

4GB

6GB

Transcripción

Whisper large-v3

6GB

10GB

Transcripción

Bark

8GB

12GB

Texto a voz

Stable Audio

8GB

12GB

Generación de música

Modelos de visión y visión-lenguaje

Modelo

VRAM mínima

Recomendado

Tarea

Llama 3.2 Vision 11B

12GB

16GB

Comprensión de imágenes

Llama 3.2 Vision 90B

48GB

80GB

Comprensión de imágenes

LLaVA 7B

8GB

12GB

QA visual

LLaVA 13B

16GB

24GB

QA visual

Qwen2.5-VL 7B

16GB

24GB (RTX 4090)

OCR de imágenes/video/documentos

Qwen2.5-VL 72B

48GB

2x A100 80GB

Máxima capacidad VL

Herramientas de ajuste fino y entrenamiento

Herramienta / Método

VRAM mínima

GPU recomendada

Tarea

Unsloth QLoRA 7B

12GB

RTX 3090 24GB

QLoRA 2x más rápido, baja VRAM

Unsloth QLoRA 13B

16GB

RTX 4090 24GB

Ajuste fino rápido

LoRA (estándar)

12GB

RTX 3090

Ajuste fino eficiente en parámetros

Ajuste fino completo 7B

40GB

A100 40GB

Entrenamiento de máxima calidad

Tablas detalladas de compatibilidad

LLM por GPU

GPU

Máx. modelo (Q4)

Máx. modelo (Q8)

Máx. modelo (FP16)

RTX 3060 12GB

13B

RTX 3070 8GB

RTX 3080 10GB

RTX 3090 24GB

30B

13B

RTX 4070 Ti 12GB

13B

RTX 4080 16GB

14B

RTX 4090 24GB

30B

13B

RTX 5090 32GB

70B

14B

13B

A100 40GB

70B

30B

14B

A100 80GB

70B

30B

H100 80GB

70B

30B

Generación de imágenes por GPU

GPU

SD 1.5

SDXL

FLUX schnell

FLUX dev

RTX 3060 12GB

✅ 512

✅ 768

⚠️ 512*

❌

RTX 3070 8GB

✅ 512

⚠️ 512

❌

RTX 3080 10GB

✅ 512

✅ 768

⚠️ 512*

❌

RTX 3090 24GB

✅ 768

✅ 1024

⚠️ 768*

RTX 4070 Ti 12GB

✅ 512

✅ 768

⚠️ 512*

❌

RTX 4080 16GB

✅ 768

✅ 1024

✅ 768

⚠️ 512*

RTX 4090 24GB

✅ 1024

RTX 5090 32GB

✅ 1024

✅ 1536

A100 40GB

✅ 1024

A100 80GB

✅ 2048

✅ 1536

*Con descarga a CPU o tamaño de batch reducido

Generación de video por GPU

GPU

SVD

AnimateDiff

Wan2.1

Hunyuan

RTX 3060 12GB

❌

⚠️ corto

❌

RTX 3090 24GB

✅ 2-4 s

✅

⚠️ 480p

❌

RTX 4090 24GB

✅ 4 s

✅

✅ 480p

⚠️ corto

RTX 5090 32GB

✅ 6 s

✅

✅ 720p

✅ 5 s

A100 40GB

✅ 4 s

✅

✅ 720p

✅ 5 s

A100 80GB

✅ 8 s

✅

✅ 720p

✅ 10 s

Guía de cuantización

¿Qué es la cuantización?

La cuantización reduce la precisión del modelo para caber en menos VRAM:

Formato

Bits

Reducción de VRAM

Pérdida de calidad

FP32

Línea base

Ninguna

FP16

50%

Mínima

BF16

50%

Mínima

FP8

75%

Pequeña

75%

Pequeña

Q6_K

81%

Pequeña

Q5_K_M

84%

Moderada

Q4_K_M

87%

Moderada

Q3_K_M

91%

Notable

Q2_K

94%

Significativa

Calculadora de VRAM

Fórmula: VRAM (GB) ≈ Parámetros (B) × Bytes por parámetro

Tamaño del modelo

FP16

2 GB

1 GB

0.5 GB

6 GB

3 GB

1.5 GB

14 GB

7 GB

3.5 GB

16 GB

8 GB

4 GB

13B

26 GB

13 GB

6.5 GB

14B

28 GB

14 GB

7 GB

30B

60 GB

30 GB

15 GB

32B

64 GB

32 GB

16 GB

70B

140 GB

70 GB

35 GB

72B

144 GB

72 GB

36 GB

*Añadir ~20% para caché KV y sobrecarga

Cuantización recomendada por caso de uso

Caso de uso

Recomendado

Por qué

Chat/General

Q4_K_M

Buen equilibrio entre velocidad y calidad

Programación

Q5_K_M+

Mejor precisión para código

Escritura creativa

Q4_K_M

La velocidad importa más

Análisis

Q6_K+

Se necesita mayor precisión

Producción

FP16/BF16

Calidad máxima

Longitud de contexto vs VRAM

Cómo el contexto afecta la VRAM

Cada modelo tiene una ventana de contexto (máx. tokens). Contexto más largo = más VRAM:

Modelo

Contexto por defecto

Contexto máximo

VRAM por 1K tokens

Llama 3 8B

128K

~0.3 GB

Llama 3 70B

128K

~0.5 GB

Qwen 2.5 7B

128K

~0.25 GB

Mistral 7B

32K

~0.25 GB

Mixtral 8x7B

32K

~0.4 GB

Contexto por GPU (Llama 3 8B Q4)

GPU

Contexto cómodo

Contexto máximo

RTX 3060 12GB

16K

32K

RTX 3090 24GB

64K

96K

RTX 4090 24GB

64K

96K

RTX 5090 32GB

96K

128K

A100 40GB

96K

128K

A100 80GB

128K

Configuraciones multi-GPU

Paralelismo tensorial

Divide un modelo entre múltiples GPUs:

Configuración

VRAM total

Máx. modelo (FP16)

2x RTX 3090

48GB

30B

2x RTX 4090

48GB

30B

2x RTX 5090

64GB

32B

4x RTX 5090

128GB

70B

2x A100 40GB

80GB

70B

4x A100 40GB

160GB

100B+

8x A100 80GB

640GB

DeepSeek-V3

vLLM Multi-GPU

# 2 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 2

# 4 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 4

Guías específicas de modelos

Familia Llama 3.1

Variante

Parámetros

GPU mínima

Configuración recomendada

Llama 3.2 1B

Cualquier 4GB

RTX 3060

Llama 3.2 3B

Cualquier 6GB

RTX 3060

Llama 3.1 8B

RTX 3060

RTX 3090

Llama 3.1 70B

70B

A100 40GB

2x A100 40GB

Llama 3.1 405B

405B

8x A100 80GB

8x H100

Familia Mistral/Mixtral

Variante

Parámetros

GPU mínima

Configuración recomendada

Mistral 7B

RTX 3060

RTX 3090

Mixtral 8x7B

46.7B

RTX 3090

A100 40GB

Mixtral 8x22B

141B

2x A100 80GB

4x A100 80GB

Familia Qwen 2.5

Variante

Parámetros

GPU mínima

Configuración recomendada

Qwen 2.5 0.5B

0.5B

Cualquier 2GB

Cualquier 4GB

Qwen 2.5 1.5B

1.5B

Cualquier 4GB

RTX 3060

Qwen 2.5 3B

Cualquier 6GB

RTX 3060

Qwen 2.5 7B

RTX 3060

RTX 3090

Qwen 2.5 14B

14B

RTX 3090

RTX 4090

Qwen 2.5 32B

32B

RTX 4090

A100 40GB

Qwen 2.5 72B

72B

A100 40GB

A100 80GB

Modelos DeepSeek

Variante

Parámetros

GPU mínima

Configuración recomendada

DeepSeek-Coder 6.7B

6.7B

RTX 3060

RTX 3090

DeepSeek-Coder 33B

33B

RTX 4090

A100 40GB

DeepSeek-V2-Lite

15.7B

RTX 3090

A100 40GB

DeepSeek-V3

671B

8x A100 80GB

8x H100

DeepSeek-R1

671B

8x A100 80GB

8x H100 (FP8)

DeepSeek-R1-Distill-Qwen-32B

32B

RTX 5090 32GB

2x A100 40GB

DeepSeek-R1-Distill-Qwen-7B

RTX 3090 24GB

RTX 4090

Solución de problemas

"CUDA out of memory"

Reducir cuantización: Q8 → Q4
Reducir la longitud del contexto: Reducir max_tokens
Habilitar descarga a CPU: --cpu-offload o enable_model_cpu_offload()
Usar batch más pequeño: batch_size=1
Probar otra GPU: Necesita más VRAM

"Modelo demasiado grande"

Usar versión cuantizada: modelos GGUF Q4
Usar múltiples GPUs: Paralelismo tensorial
Descargar a la CPU: Más lento pero funciona
Elegir modelo más pequeño: 7B en lugar de 13B

"Generación lenta"

Actualizar GPU: Más VRAM = menos descarga
Usar cuantización más rápida: Q4 es más rápido que Q8
Reducir contexto: Más corto = más rápido
Habilitar flash attention: --flash-attn

Próximos pasos

Guía de comparación de GPUs - Especificaciones detalladas de GPUs
Catálogo de imágenes Docker - Imágenes listas para desplegar
Guía de inicio rápido - Comienza en 5 minutos

AnteriorComparación de GPU SiguienteCalculadora de costos

Última actualización hace 1 día

¿Te fue útil?

hashtagReferencia rápida

hashtagModelos de lenguaje (LLM)

hashtagModelos de generación de imágenes

hashtagModelos de generación de video

hashtagModelos de audio

hashtagModelos de visión y visión-lenguaje

hashtagHerramientas de ajuste fino y entrenamiento

hashtagTablas detalladas de compatibilidad

hashtagLLM por GPU

hashtagGeneración de imágenes por GPU

hashtagGeneración de video por GPU

hashtagGuía de cuantización

hashtag¿Qué es la cuantización?

hashtagCalculadora de VRAM

hashtagCuantización recomendada por caso de uso

hashtagLongitud de contexto vs VRAM

hashtagCómo el contexto afecta la VRAM

hashtagContexto por GPU (Llama 3 8B Q4)

hashtagConfiguraciones multi-GPU

hashtagParalelismo tensorial

hashtagvLLM Multi-GPU

hashtagGuías específicas de modelos

hashtagFamilia Llama 3.1

hashtagFamilia Mistral/Mixtral

hashtagFamilia Qwen 2.5

hashtagModelos DeepSeek

hashtagSolución de problemas

hashtag"CUDA out of memory"

hashtag"Modelo demasiado grande"

hashtag"Generación lenta"

hashtagPróximos pasos

Referencia rápida

Modelos de lenguaje (LLM)

Modelos de generación de imágenes

Modelos de generación de video

Modelos de audio

Modelos de visión y visión-lenguaje

Herramientas de ajuste fino y entrenamiento

Tablas detalladas de compatibilidad

LLM por GPU

Generación de imágenes por GPU

Generación de video por GPU

Guía de cuantización

¿Qué es la cuantización?

Calculadora de VRAM

Cuantización recomendada por caso de uso

Longitud de contexto vs VRAM

Cómo el contexto afecta la VRAM

Contexto por GPU (Llama 3 8B Q4)

Configuraciones multi-GPU

Paralelismo tensorial

vLLM Multi-GPU

Guías específicas de modelos

Familia Llama 3.1

Familia Mistral/Mixtral

Familia Qwen 2.5

Modelos DeepSeek

Solución de problemas

"CUDA out of memory"

"Modelo demasiado grande"

"Generación lenta"

Próximos pasos