# Совместимость моделей

Полное руководство о том, какие модели ИИ работают на каких GPU на CLORE.AI.

{% hint style="success" %}
Найдите GPU с подходящим объёмом VRAM на [CLORE.AI Marketplace](https://clore.ai/marketplace).
{% endhint %}

## Быстрая справка

### Языковые модели (LLM)

| Модель                  | Параметры | Мин. VRAM  | Рекомендуется          | Квантование                     |
| ----------------------- | --------- | ---------- | ---------------------- | ------------------------------- |
| Llama 3.2               | 1B        | 2GB        | 4 ГБ                   | Q4, Q8, FP16                    |
| Llama 3.2               | 3B        | 4 ГБ       | 6 ГБ                   | Q4, Q8, FP16                    |
| Llama 3.1/3             | 8B        | 6 ГБ       | 12GB                   | Q4, Q8, FP16                    |
| Mistral                 | 7B        | 6 ГБ       | 12GB                   | Q4, Q8, FP16                    |
| Qwen 2.5                | 7B        | 6 ГБ       | 12GB                   | Q4, Q8, FP16                    |
| Qwen 2.5                | 14B       | 12GB       | 16GB                   | Q4, Q8                          |
| Qwen 2.5                | 32B       | 20GB       | 24 ГБ                  | Q4, Q8                          |
| Llama 3.1               | 70B       | 40GB       | 48GB                   | Q4, Q8                          |
| Qwen 2.5                | 72B       | 48GB       | 80GB                   | Q4, Q8                          |
| Mixtral                 | 8x7B      | 24 ГБ      | 48GB                   | Q4                              |
| DeepSeek-V3             | 671B      | 320GB+     | 640GB                  | FP8                             |
| **DeepSeek-R1**         | **671B**  | **320GB+** | **8x H100**            | **FP8, модель для рассуждений** |
| **DeepSeek-R1-Distill** | **32B**   | **20GB**   | **2x A100 / RTX 5090** | **Q4/Q8**                       |

### Модели генерации изображений

| Модель               | Мин. VRAM | Рекомендуется       | Примечания                         |
| -------------------- | --------- | ------------------- | ---------------------------------- |
| SD 1.5               | 4 ГБ      | 8GB                 | 512x512 родное                     |
| SD 2.1               | 6 ГБ      | 8GB                 | 768x768 родное                     |
| SDXL                 | 8GB       | 12GB                | 1024x1024 родное                   |
| SDXL Turbo           | 8GB       | 12GB                | 1-4 шага                           |
| **SD3.5 Large (8B)** | **16GB**  | **24 ГБ**           | **1024x1024, повышенное качество** |
| FLUX.1 schnell       | 12GB      | 16GB                | 4 шага, быстро                     |
| FLUX.1 dev           | 16GB      | 24 ГБ               | 20-50 шагов                        |
| **TRELLIS**          | **16GB**  | **24GB (RTX 4090)** | **3D-генерация из изображений**    |

### Модели генерации видео

| Модель                 | Мин. VRAM | Рекомендуется            | Выход                          |
| ---------------------- | --------- | ------------------------ | ------------------------------ |
| Stable Video Diffusion | 16GB      | 24 ГБ                    | 4 с, 576x1024                  |
| AnimateDiff            | 12GB      | 16GB                     | 2-4 с                          |
| **LTX-Video**          | **16GB**  | **24GB (RTX 4090/3090)** | **5 с, 768x512, очень быстро** |
| Wan2.1                 | 24 ГБ     | 40GB                     | 5 с, 480p-720p                 |
| Hunyuan Video          | 40GB      | 80GB                     | 5 с, 720p                      |
| OpenSora               | 24 ГБ     | 40GB                     | Переменно                      |

### Аудио-модели

| Модель           | Мин. VRAM | Рекомендуется | Задача           |
| ---------------- | --------- | ------------- | ---------------- |
| Whisper tiny     | 1GB       | 2GB           | Транскрипция     |
| Whisper base     | 1GB       | 2GB           | Транскрипция     |
| Whisper small    | 2GB       | 4 ГБ          | Транскрипция     |
| Whisper medium   | 4 ГБ      | 6 ГБ          | Транскрипция     |
| Whisper large-v3 | 6 ГБ      | 10GB          | Транскрипция     |
| Bark             | 8GB       | 12GB          | Текст-в-речь     |
| Stable Audio     | 8GB       | 12GB          | Генерация музыки |

### Визуальные и мульти-модальные модели

| Модель               | Мин. VRAM | Рекомендуется       | Задача                                               |
| -------------------- | --------- | ------------------- | ---------------------------------------------------- |
| Llama 3.2 Vision 11B | 12GB      | 16GB                | Понимание изображений                                |
| Llama 3.2 Vision 90B | 48GB      | 80GB                | Понимание изображений                                |
| LLaVA 7B             | 8GB       | 12GB                | Визуальные вопросы и ответы                          |
| LLaVA 13B            | 16GB      | 24 ГБ               | Визуальные вопросы и ответы                          |
| **Qwen2.5-VL 7B**    | **16GB**  | **24GB (RTX 4090)** | **Распознавание изображений/видео/документов (OCR)** |
| **Qwen2.5-VL 72B**   | **48GB**  | **2x A100 80GB**    | **Максимальная VL-возможность**                      |

### Инструменты дообучения и тренировки

| Инструмент / Метод   | Мин. VRAM | Рекомендуемый GPU | Задача                                  |
| -------------------- | --------- | ----------------- | --------------------------------------- |
| **Unsloth QLoRA 7B** | **12GB**  | **RTX 3090 24GB** | **В 2 раза быстрее QLoRA, низкий VRAM** |
| Unsloth QLoRA 13B    | 16GB      | RTX 4090 24GB     | Быстрое дообучение                      |
| LoRA (стандартный)   | 12GB      | RTX 3090          | Параметрически эффективное дообучение   |
| Полное дообучение 7B | 40GB      | A100 40GB         | Максимальное качество обучения          |

***

## Подробные таблицы совместимости

### LLM по GPU

| GPU              | Макс. модель (Q4) | Макс. модель (Q8) | Макс. модель (FP16) |
| ---------------- | ----------------- | ----------------- | ------------------- |
| RTX 3060 12GB    | 13B               | 7B                | 3B                  |
| RTX 3070 8GB     | 7B                | 3B                | 1B                  |
| RTX 3080 10GB    | 7B                | 7B                | 3B                  |
| RTX 3090 24GB    | 30B               | 13B               | 7B                  |
| RTX 4070 Ti 12GB | 13B               | 7B                | 3B                  |
| RTX 4080 16GB    | 14B               | 7B                | 7B                  |
| RTX 4090 24GB    | 30B               | 13B               | 7B                  |
| RTX 5090 32GB    | 70B               | 14B               | 13B                 |
| A100 40GB        | 70B               | 30B               | 14B                 |
| A100 80GB        | 70B               | 70B               | 30B                 |
| H100 80GB        | 70B               | 70B               | 30B                 |

### Генерация изображений по GPU

| GPU              | SD 1.5 | SDXL   | FLUX schnell | FLUX dev |
| ---------------- | ------ | ------ | ------------ | -------- |
| RTX 3060 12GB    | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 3070 8GB     | ✅ 512  | ⚠️ 512 | ❌            | ❌        |
| RTX 3080 10GB    | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 3090 24GB    | ✅ 768  | ✅ 1024 | ✅ 1024       | ⚠️ 768\* |
| RTX 4070 Ti 12GB | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 4080 16GB    | ✅ 768  | ✅ 1024 | ✅ 768        | ⚠️ 512\* |
| RTX 4090 24GB    | ✅ 1024 | ✅ 1024 | ✅ 1024       | ✅ 1024   |
| RTX 5090 32GB    | ✅ 1024 | ✅ 1024 | ✅ 1536       | ✅ 1536   |
| A100 40GB        | ✅ 1024 | ✅ 1024 | ✅ 1024       | ✅ 1024   |
| A100 80GB        | ✅ 2048 | ✅ 2048 | ✅ 1536       | ✅ 1536   |

\*С offload на CPU или уменьшенным размером пакета

### Генерация видео по GPU

| GPU           | SVD    | AnimateDiff | Wan2.1  | Hunyuan    |
| ------------- | ------ | ----------- | ------- | ---------- |
| RTX 3060 12GB | ❌      | ⚠️ коротко  | ❌       | ❌          |
| RTX 3090 24GB | ✅ 2-4с | ✅           | ⚠️ 480p | ❌          |
| RTX 4090 24GB | ✅ 4с   | ✅           | ✅ 480p  | ⚠️ коротко |
| RTX 5090 32GB | ✅ 6с   | ✅           | ✅ 720p  | ✅ 5с       |
| A100 40GB     | ✅ 4с   | ✅           | ✅ 720p  | ✅ 5с       |
| A100 80GB     | ✅ 8с   | ✅           | ✅ 720p  | ✅ 10с      |

***

## Руководство по квантованию

### Что такое квантование?

Квантование уменьшает точность модели, чтобы она занимала меньше VRAM:

| Формат   | Биты | Снижение VRAM   | Потеря качества |
| -------- | ---- | --------------- | --------------- |
| FP32     | 32   | Базовый уровень | Нет             |
| FP16     | 16   | 50%             | Минимальная     |
| BF16     | 16   | 50%             | Минимальная     |
| FP8      | 8    | 75%             | Небольшая       |
| Q8       | 8    | 75%             | Небольшая       |
| Q6\_K    | 6    | 81%             | Небольшая       |
| Q5\_K\_M | 5    | 84%             | Умеренная       |
| Q4\_K\_M | 4    | 87%             | Умеренная       |
| Q3\_K\_M | 3    | 91%             | Заметная        |
| Q2\_K    | 2    | 94%             | Значительная    |

### Калькулятор VRAM

**Формула:** `VRAM (GB) ≈ Параметры (B) × Байты на параметр`

| Размер модели | FP16   | Q8    | Q4     |
| ------------- | ------ | ----- | ------ |
| 1B            | 2 GB   | 1 GB  | 0.5 GB |
| 3B            | 6 GB   | 3 GB  | 1.5 GB |
| 7B            | 14 GB  | 7 GB  | 3.5 GB |
| 8B            | 16 GB  | 8 GB  | 4 GB   |
| 13B           | 26 GB  | 13 GB | 6.5 GB |
| 14B           | 28 GB  | 14 GB | 7 GB   |
| 30B           | 60 GB  | 30 GB | 15 GB  |
| 32B           | 64 GB  | 32 GB | 16 GB  |
| 70B           | 140 GB | 70 GB | 35 GB  |
| 72B           | 144 GB | 72 GB | 36 GB  |

\*Добавьте \~20% для KV-кэша и накладных расходов

### Рекомендуемое квантование по сценариям использования

| Случай использования | Рекомендуется | Почему                             |
| -------------------- | ------------- | ---------------------------------- |
| Чат/Общее            | Q4\_K\_M      | Хороший баланс скорости и качества |
| Кодирование          | Q5\_K\_M+     | Лучшая точность для кода           |
| Творческое письмо    | Q4\_K\_M      | Скорость важнее                    |
| Анализ               | Q6\_K+        | Требуется более высокая точность   |
| Продакшен            | FP16/BF16     | Максимальное качество              |

***

## Длина контекста vs VRAM

### Как контекст влияет на VRAM

У каждой модели есть окно контекста (макс. токенов). Длинный контекст = больше VRAM:

| Модель       | Контекст по умолчанию | Макс. контекст | VRAM на 1К токенов |
| ------------ | --------------------- | -------------- | ------------------ |
| Llama 3 8B   | 8K                    | 128K           | \~0.3 GB           |
| Llama 3 70B  | 8K                    | 128K           | \~0.5 GB           |
| Qwen 2.5 7B  | 8K                    | 128K           | \~0.25 GB          |
| Mistral 7B   | 8K                    | 32K            | \~0.25 GB          |
| Mixtral 8x7B | 32K                   | 32K            | \~0.4 GB           |

### Контекст по GPU (Llama 3 8B Q4)

| GPU           | Комфортный контекст | Максимальный контекст |
| ------------- | ------------------- | --------------------- |
| RTX 3060 12GB | 16K                 | 32K                   |
| RTX 3090 24GB | 64K                 | 96K                   |
| RTX 4090 24GB | 64K                 | 96K                   |
| RTX 5090 32GB | 96K                 | 128K                  |
| A100 40GB     | 96K                 | 128K                  |
| A100 80GB     | 128K                | 128K                  |

***

## Конфигурации с несколькими GPU

### Тензорный параллелизм

Разделите одну модель между несколькими GPU:

| Конфигурация | Общий VRAM | Макс. модель (FP16) |
| ------------ | ---------- | ------------------- |
| 2x RTX 3090  | 48GB       | 30B                 |
| 2x RTX 4090  | 48GB       | 30B                 |
| 2x RTX 5090  | 64GB       | 32B                 |
| 4x RTX 5090  | 128GB      | 70B                 |
| 2x A100 40GB | 80GB       | 70B                 |
| 4x A100 40GB | 160GB      | 100B+               |
| 8x A100 80GB | 640GB      | DeepSeek-V3         |

### vLLM Multi-GPU

```bash
# 2 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 2

# 4 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 4
```

***

## Руководства по конкретным моделям

### Семейство Llama 3.1

| Вариант        | Параметры | Мин. GPU     | Рекомендуемая конфигурация |
| -------------- | --------- | ------------ | -------------------------- |
| Llama 3.2 1B   | 1B        | Любой 4GB    | RTX 3060                   |
| Llama 3.2 3B   | 3B        | Любой 6GB    | RTX 3060                   |
| Llama 3.1 8B   | 8B        | RTX 3060     | RTX 3090                   |
| Llama 3.1 70B  | 70B       | A100 40GB    | 2x A100 40GB               |
| Llama 3.1 405B | 405B      | 8x A100 80GB | 8x H100                    |

### Семейство Mistral/Mixtral

| Вариант       | Параметры | Мин. GPU     | Рекомендуемая конфигурация |
| ------------- | --------- | ------------ | -------------------------- |
| Mistral 7B    | 7B        | RTX 3060     | RTX 3090                   |
| Mixtral 8x7B  | 46.7B     | RTX 3090     | A100 40GB                  |
| Mixtral 8x22B | 141B      | 2x A100 80GB | 4x A100 80GB               |

### Семейство Qwen 2.5

| Вариант       | Параметры | Мин. GPU  | Рекомендуемая конфигурация |
| ------------- | --------- | --------- | -------------------------- |
| Qwen 2.5 0.5B | 0.5B      | Любой 2GB | Любой 4GB                  |
| Qwen 2.5 1.5B | 1.5B      | Любой 4GB | RTX 3060                   |
| Qwen 2.5 3B   | 3B        | Любой 6GB | RTX 3060                   |
| Qwen 2.5 7B   | 7B        | RTX 3060  | RTX 3090                   |
| Qwen 2.5 14B  | 14B       | RTX 3090  | RTX 4090                   |
| Qwen 2.5 32B  | 32B       | RTX 4090  | A100 40GB                  |
| Qwen 2.5 72B  | 72B       | A100 40GB | A100 80GB                  |

### Модели DeepSeek

| Вариант                          | Параметры | Мин. GPU          | Рекомендуемая конфигурация |
| -------------------------------- | --------- | ----------------- | -------------------------- |
| DeepSeek-Coder 6.7B              | 6.7B      | RTX 3060          | RTX 3090                   |
| DeepSeek-Coder 33B               | 33B       | RTX 4090          | A100 40GB                  |
| DeepSeek-V2-Lite                 | 15.7B     | RTX 3090          | A100 40GB                  |
| DeepSeek-V3                      | 671B      | 8x A100 80GB      | 8x H100                    |
| **DeepSeek-R1**                  | **671B**  | **8x A100 80GB**  | **8x H100 (FP8)**          |
| **DeepSeek-R1-Distill-Qwen-32B** | **32B**   | **RTX 5090 32GB** | **2x A100 40GB**           |
| **DeepSeek-R1-Distill-Qwen-7B**  | **7B**    | **RTX 3090 24GB** | **RTX 4090**               |

***

## Устранение неполадок

### "CUDA out of memory"

1. **Уменьшите квантование:** Q8 → Q4
2. **Уменьшите длину контекста:** Уменьшите max\_tokens
3. **Включите offload на CPU:** `--cpu-offload` или `enable_model_cpu_offload()`
4. **Используйте меньший батч:** batch\_size=1
5. **Попробуйте другой GPU:** Нужен больший VRAM

### "Модель слишком большая"

1. **Используйте квантованную версию:** GGUF Q4 модели
2. **Используйте несколько GPU:** Тензорный параллелизм
3. **Выгрузка на CPU:** Медленнее, но работает
4. **Выберите меньшую модель:** 7B вместо 13B

### "Медленная генерация"

1. **Обновите GPU:** Больше VRAM = меньше выгрузок
2. **Используйте более быстрое квантование:** Q4 быстрее, чем Q8
3. **Уменьшите контекст:** Короткий = быстрее
4. **Включите flash attention:** `--flash-attn`

## Дальнейшие шаги

* [Сравнение GPU](https://docs.clore.ai/guides/guides_v2-ru/nachalo-raboty/gpu-comparison) - Подробные характеристики GPU
* [Каталог Docker-образов](https://docs.clore.ai/guides/guides_v2-ru/nachalo-raboty/docker-images) - Образы, готовые к развёртыванию
* [Руководство по быстрому старту](https://docs.clore.ai/guides/guides_v2-ru/quickstart) - Начните за 5 минут
