# Compatibilidad de modelos

Guía completa de qué modelos de IA se ejecutan en qué GPUs en CLORE.AI.

{% hint style="success" %}
Encuentra GPUs con la VRAM adecuada en [CLORE.AI Marketplace](https://clore.ai/marketplace).
{% endhint %}

## Referencia rápida

### Modelos de lenguaje (LLM)

| Modelo                  | Parámetros | VRAM mínima | Recomendado            | Cuantización                    |
| ----------------------- | ---------- | ----------- | ---------------------- | ------------------------------- |
| Llama 3.2               | 1B         | 2GB         | 4GB                    | Q4, Q8, FP16                    |
| Llama 3.2               | 3B         | 4GB         | 6GB                    | Q4, Q8, FP16                    |
| Llama 3.1/3             | 8B         | 6GB         | 12GB                   | Q4, Q8, FP16                    |
| Mistral                 | 7B         | 6GB         | 12GB                   | Q4, Q8, FP16                    |
| Qwen 2.5                | 7B         | 6GB         | 12GB                   | Q4, Q8, FP16                    |
| Qwen 2.5                | 14B        | 12GB        | 16GB                   | Q4, Q8                          |
| Qwen 2.5                | 32B        | 20GB        | 24GB                   | Q4, Q8                          |
| Llama 3.1               | 70B        | 40GB        | 48GB                   | Q4, Q8                          |
| Qwen 2.5                | 72B        | 48GB        | 80GB                   | Q4, Q8                          |
| Mixtral                 | 8x7B       | 24GB        | 48GB                   | Q4                              |
| DeepSeek-V3             | 671B       | 320GB+      | 640GB                  | FP8                             |
| **DeepSeek-R1**         | **671B**   | **320GB+**  | **8x H100**            | **FP8, modelo de razonamiento** |
| **DeepSeek-R1-Distill** | **32B**    | **20GB**    | **2x A100 / RTX 5090** | **Q4/Q8**                       |

### Modelos de generación de imágenes

| Modelo               | VRAM mínima | Recomendado         | Notas                                  |
| -------------------- | ----------- | ------------------- | -------------------------------------- |
| SD 1.5               | 4GB         | 8GB                 | 512x512 nativo                         |
| SD 2.1               | 6GB         | 8GB                 | 768x768 nativo                         |
| SDXL                 | 8GB         | 12GB                | 1024x1024 nativo                       |
| SDXL Turbo           | 8GB         | 12GB                | 1-4 pasos                              |
| **SD3.5 Large (8B)** | **16GB**    | **24GB**            | **1024x1024, calidad avanzada**        |
| FLUX.1 schnell       | 12GB        | 16GB                | 4 pasos, rápido                        |
| FLUX.1 dev           | 16GB        | 24GB                | 20-50 pasos                            |
| **TRELLIS**          | **16GB**    | **24GB (RTX 4090)** | **Generación 3D a partir de imágenes** |

### Modelos de generación de video

| Modelo                 | VRAM mínima | Recomendado              | Salida                       |
| ---------------------- | ----------- | ------------------------ | ---------------------------- |
| Stable Video Diffusion | 16GB        | 24GB                     | 4 s, 576x1024                |
| AnimateDiff            | 12GB        | 16GB                     | 2-4 s                        |
| **LTX-Video**          | **16GB**    | **24GB (RTX 4090/3090)** | **5 s, 768x512, muy rápido** |
| Wan2.1                 | 24GB        | 40GB                     | 5 s, 480p-720p               |
| Hunyuan Video          | 40GB        | 80GB                     | 5 s, 720p                    |
| OpenSora               | 24GB        | 40GB                     | Variable                     |

### Modelos de audio

| Modelo           | VRAM mínima | Recomendado | Tarea                |
| ---------------- | ----------- | ----------- | -------------------- |
| Whisper tiny     | 1GB         | 2GB         | Transcripción        |
| Whisper base     | 1GB         | 2GB         | Transcripción        |
| Whisper small    | 2GB         | 4GB         | Transcripción        |
| Whisper medium   | 4GB         | 6GB         | Transcripción        |
| Whisper large-v3 | 6GB         | 10GB        | Transcripción        |
| Bark             | 8GB         | 12GB        | Texto a voz          |
| Stable Audio     | 8GB         | 12GB        | Generación de música |

### Modelos de visión y visión-lenguaje

| Modelo               | VRAM mínima | Recomendado         | Tarea                                |
| -------------------- | ----------- | ------------------- | ------------------------------------ |
| Llama 3.2 Vision 11B | 12GB        | 16GB                | Comprensión de imágenes              |
| Llama 3.2 Vision 90B | 48GB        | 80GB                | Comprensión de imágenes              |
| LLaVA 7B             | 8GB         | 12GB                | QA visual                            |
| LLaVA 13B            | 16GB        | 24GB                | QA visual                            |
| **Qwen2.5-VL 7B**    | **16GB**    | **24GB (RTX 4090)** | **OCR de imágenes/video/documentos** |
| **Qwen2.5-VL 72B**   | **48GB**    | **2x A100 80GB**    | **Máxima capacidad VL**              |

### Herramientas de ajuste fino y entrenamiento

| Herramienta / Método    | VRAM mínima | GPU recomendada   | Tarea                               |
| ----------------------- | ----------- | ----------------- | ----------------------------------- |
| **Unsloth QLoRA 7B**    | **12GB**    | **RTX 3090 24GB** | **QLoRA 2x más rápido, baja VRAM**  |
| Unsloth QLoRA 13B       | 16GB        | RTX 4090 24GB     | Ajuste fino rápido                  |
| LoRA (estándar)         | 12GB        | RTX 3090          | Ajuste fino eficiente en parámetros |
| Ajuste fino completo 7B | 40GB        | A100 40GB         | Entrenamiento de máxima calidad     |

***

## Tablas detalladas de compatibilidad

### LLM por GPU

| GPU              | Máx. modelo (Q4) | Máx. modelo (Q8) | Máx. modelo (FP16) |
| ---------------- | ---------------- | ---------------- | ------------------ |
| RTX 3060 12GB    | 13B              | 7B               | 3B                 |
| RTX 3070 8GB     | 7B               | 3B               | 1B                 |
| RTX 3080 10GB    | 7B               | 7B               | 3B                 |
| RTX 3090 24GB    | 30B              | 13B              | 7B                 |
| RTX 4070 Ti 12GB | 13B              | 7B               | 3B                 |
| RTX 4080 16GB    | 14B              | 7B               | 7B                 |
| RTX 4090 24GB    | 30B              | 13B              | 7B                 |
| RTX 5090 32GB    | 70B              | 14B              | 13B                |
| A100 40GB        | 70B              | 30B              | 14B                |
| A100 80GB        | 70B              | 70B              | 30B                |
| H100 80GB        | 70B              | 70B              | 30B                |

### Generación de imágenes por GPU

| GPU              | SD 1.5 | SDXL   | FLUX schnell | FLUX dev |
| ---------------- | ------ | ------ | ------------ | -------- |
| RTX 3060 12GB    | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 3070 8GB     | ✅ 512  | ⚠️ 512 | ❌            | ❌        |
| RTX 3080 10GB    | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 3090 24GB    | ✅ 768  | ✅ 1024 | ✅ 1024       | ⚠️ 768\* |
| RTX 4070 Ti 12GB | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 4080 16GB    | ✅ 768  | ✅ 1024 | ✅ 768        | ⚠️ 512\* |
| RTX 4090 24GB    | ✅ 1024 | ✅ 1024 | ✅ 1024       | ✅ 1024   |
| RTX 5090 32GB    | ✅ 1024 | ✅ 1024 | ✅ 1536       | ✅ 1536   |
| A100 40GB        | ✅ 1024 | ✅ 1024 | ✅ 1024       | ✅ 1024   |
| A100 80GB        | ✅ 2048 | ✅ 2048 | ✅ 1536       | ✅ 1536   |

\*Con descarga a CPU o tamaño de batch reducido

### Generación de video por GPU

| GPU           | SVD     | AnimateDiff | Wan2.1  | Hunyuan  |
| ------------- | ------- | ----------- | ------- | -------- |
| RTX 3060 12GB | ❌       | ⚠️ corto    | ❌       | ❌        |
| RTX 3090 24GB | ✅ 2-4 s | ✅           | ⚠️ 480p | ❌        |
| RTX 4090 24GB | ✅ 4 s   | ✅           | ✅ 480p  | ⚠️ corto |
| RTX 5090 32GB | ✅ 6 s   | ✅           | ✅ 720p  | ✅ 5 s    |
| A100 40GB     | ✅ 4 s   | ✅           | ✅ 720p  | ✅ 5 s    |
| A100 80GB     | ✅ 8 s   | ✅           | ✅ 720p  | ✅ 10 s   |

***

## Guía de cuantización

### ¿Qué es la cuantización?

La cuantización reduce la precisión del modelo para caber en menos VRAM:

| Formato  | Bits | Reducción de VRAM | Pérdida de calidad |
| -------- | ---- | ----------------- | ------------------ |
| FP32     | 32   | Línea base        | Ninguna            |
| FP16     | 16   | 50%               | Mínima             |
| BF16     | 16   | 50%               | Mínima             |
| FP8      | 8    | 75%               | Pequeña            |
| Q8       | 8    | 75%               | Pequeña            |
| Q6\_K    | 6    | 81%               | Pequeña            |
| Q5\_K\_M | 5    | 84%               | Moderada           |
| Q4\_K\_M | 4    | 87%               | Moderada           |
| Q3\_K\_M | 3    | 91%               | Notable            |
| Q2\_K    | 2    | 94%               | Significativa      |

### Calculadora de VRAM

**Fórmula:** `VRAM (GB) ≈ Parámetros (B) × Bytes por parámetro`

| Tamaño del modelo | FP16   | Q8    | Q4     |
| ----------------- | ------ | ----- | ------ |
| 1B                | 2 GB   | 1 GB  | 0.5 GB |
| 3B                | 6 GB   | 3 GB  | 1.5 GB |
| 7B                | 14 GB  | 7 GB  | 3.5 GB |
| 8B                | 16 GB  | 8 GB  | 4 GB   |
| 13B               | 26 GB  | 13 GB | 6.5 GB |
| 14B               | 28 GB  | 14 GB | 7 GB   |
| 30B               | 60 GB  | 30 GB | 15 GB  |
| 32B               | 64 GB  | 32 GB | 16 GB  |
| 70B               | 140 GB | 70 GB | 35 GB  |
| 72B               | 144 GB | 72 GB | 36 GB  |

\*Añadir \~20% para caché KV y sobrecarga

### Cuantización recomendada por caso de uso

| Caso de uso        | Recomendado | Por qué                                   |
| ------------------ | ----------- | ----------------------------------------- |
| Chat/General       | Q4\_K\_M    | Buen equilibrio entre velocidad y calidad |
| Programación       | Q5\_K\_M+   | Mejor precisión para código               |
| Escritura creativa | Q4\_K\_M    | La velocidad importa más                  |
| Análisis           | Q6\_K+      | Se necesita mayor precisión               |
| Producción         | FP16/BF16   | Calidad máxima                            |

***

## Longitud de contexto vs VRAM

### Cómo el contexto afecta la VRAM

Cada modelo tiene una ventana de contexto (máx. tokens). Contexto más largo = más VRAM:

| Modelo       | Contexto por defecto | Contexto máximo | VRAM por 1K tokens |
| ------------ | -------------------- | --------------- | ------------------ |
| Llama 3 8B   | 8K                   | 128K            | \~0.3 GB           |
| Llama 3 70B  | 8K                   | 128K            | \~0.5 GB           |
| Qwen 2.5 7B  | 8K                   | 128K            | \~0.25 GB          |
| Mistral 7B   | 8K                   | 32K             | \~0.25 GB          |
| Mixtral 8x7B | 32K                  | 32K             | \~0.4 GB           |

### Contexto por GPU (Llama 3 8B Q4)

| GPU           | Contexto cómodo | Contexto máximo |
| ------------- | --------------- | --------------- |
| RTX 3060 12GB | 16K             | 32K             |
| RTX 3090 24GB | 64K             | 96K             |
| RTX 4090 24GB | 64K             | 96K             |
| RTX 5090 32GB | 96K             | 128K            |
| A100 40GB     | 96K             | 128K            |
| A100 80GB     | 128K            | 128K            |

***

## Configuraciones multi-GPU

### Paralelismo tensorial

Divide un modelo entre múltiples GPUs:

| Configuración | VRAM total | Máx. modelo (FP16) |
| ------------- | ---------- | ------------------ |
| 2x RTX 3090   | 48GB       | 30B                |
| 2x RTX 4090   | 48GB       | 30B                |
| 2x RTX 5090   | 64GB       | 32B                |
| 4x RTX 5090   | 128GB      | 70B                |
| 2x A100 40GB  | 80GB       | 70B                |
| 4x A100 40GB  | 160GB      | 100B+              |
| 8x A100 80GB  | 640GB      | DeepSeek-V3        |

### vLLM Multi-GPU

```bash
# 2 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 2

# 4 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 4
```

***

## Guías específicas de modelos

### Familia Llama 3.1

| Variante       | Parámetros | GPU mínima    | Configuración recomendada |
| -------------- | ---------- | ------------- | ------------------------- |
| Llama 3.2 1B   | 1B         | Cualquier 4GB | RTX 3060                  |
| Llama 3.2 3B   | 3B         | Cualquier 6GB | RTX 3060                  |
| Llama 3.1 8B   | 8B         | RTX 3060      | RTX 3090                  |
| Llama 3.1 70B  | 70B        | A100 40GB     | 2x A100 40GB              |
| Llama 3.1 405B | 405B       | 8x A100 80GB  | 8x H100                   |

### Familia Mistral/Mixtral

| Variante      | Parámetros | GPU mínima   | Configuración recomendada |
| ------------- | ---------- | ------------ | ------------------------- |
| Mistral 7B    | 7B         | RTX 3060     | RTX 3090                  |
| Mixtral 8x7B  | 46.7B      | RTX 3090     | A100 40GB                 |
| Mixtral 8x22B | 141B       | 2x A100 80GB | 4x A100 80GB              |

### Familia Qwen 2.5

| Variante      | Parámetros | GPU mínima    | Configuración recomendada |
| ------------- | ---------- | ------------- | ------------------------- |
| Qwen 2.5 0.5B | 0.5B       | Cualquier 2GB | Cualquier 4GB             |
| Qwen 2.5 1.5B | 1.5B       | Cualquier 4GB | RTX 3060                  |
| Qwen 2.5 3B   | 3B         | Cualquier 6GB | RTX 3060                  |
| Qwen 2.5 7B   | 7B         | RTX 3060      | RTX 3090                  |
| Qwen 2.5 14B  | 14B        | RTX 3090      | RTX 4090                  |
| Qwen 2.5 32B  | 32B        | RTX 4090      | A100 40GB                 |
| Qwen 2.5 72B  | 72B        | A100 40GB     | A100 80GB                 |

### Modelos DeepSeek

| Variante                         | Parámetros | GPU mínima        | Configuración recomendada |
| -------------------------------- | ---------- | ----------------- | ------------------------- |
| DeepSeek-Coder 6.7B              | 6.7B       | RTX 3060          | RTX 3090                  |
| DeepSeek-Coder 33B               | 33B        | RTX 4090          | A100 40GB                 |
| DeepSeek-V2-Lite                 | 15.7B      | RTX 3090          | A100 40GB                 |
| DeepSeek-V3                      | 671B       | 8x A100 80GB      | 8x H100                   |
| **DeepSeek-R1**                  | **671B**   | **8x A100 80GB**  | **8x H100 (FP8)**         |
| **DeepSeek-R1-Distill-Qwen-32B** | **32B**    | **RTX 5090 32GB** | **2x A100 40GB**          |
| **DeepSeek-R1-Distill-Qwen-7B**  | **7B**     | **RTX 3090 24GB** | **RTX 4090**              |

***

## Solución de problemas

### "CUDA out of memory"

1. **Reducir cuantización:** Q8 → Q4
2. **Reducir la longitud del contexto:** Reducir max\_tokens
3. **Habilitar descarga a CPU:** `--cpu-offload` o `enable_model_cpu_offload()`
4. **Usar batch más pequeño:** batch\_size=1
5. **Probar otra GPU:** Necesita más VRAM

### "Modelo demasiado grande"

1. **Usar versión cuantizada:** modelos GGUF Q4
2. **Usar múltiples GPUs:** Paralelismo tensorial
3. **Descargar a la CPU:** Más lento pero funciona
4. **Elegir modelo más pequeño:** 7B en lugar de 13B

### "Generación lenta"

1. **Actualizar GPU:** Más VRAM = menos descarga
2. **Usar cuantización más rápida:** Q4 es más rápido que Q8
3. **Reducir contexto:** Más corto = más rápido
4. **Habilitar flash attention:** `--flash-attn`

## Próximos pasos

* [Guía de comparación de GPUs](https://docs.clore.ai/guides/guides_v2-es/primeros-pasos/gpu-comparison) - Especificaciones detalladas de GPUs
* [Catálogo de imágenes Docker](https://docs.clore.ai/guides/guides_v2-es/primeros-pasos/docker-images) - Imágenes listas para desplegar
* [Guía de inicio rápido](https://docs.clore.ai/guides/guides_v2-es/quickstart) - Comienza en 5 minutos
