# Совместимость моделей

Полное руководство о том, какие модели ИИ работают на каких GPU на CLORE.AI.

{% hint style="success" %}
Найдите GPU с подходящим объёмом VRAM на [CLORE.AI Marketplace](https://clore.ai/marketplace).
{% endhint %}

## Быстрая справка

### Языковые модели (LLM)

| Модель                  | Параметры | Мин. VRAM  | Рекомендуется          | Квантование                     |
| ----------------------- | --------- | ---------- | ---------------------- | ------------------------------- |
| Llama 3.2               | 1B        | 2GB        | 4 ГБ                   | Q4, Q8, FP16                    |
| Llama 3.2               | 3B        | 4 ГБ       | 6 ГБ                   | Q4, Q8, FP16                    |
| Llama 3.1/3             | 8B        | 6 ГБ       | 12GB                   | Q4, Q8, FP16                    |
| Mistral                 | 7B        | 6 ГБ       | 12GB                   | Q4, Q8, FP16                    |
| Qwen 2.5                | 7B        | 6 ГБ       | 12GB                   | Q4, Q8, FP16                    |
| Qwen 2.5                | 14B       | 12GB       | 16GB                   | Q4, Q8                          |
| Qwen 2.5                | 32B       | 20GB       | 24 ГБ                  | Q4, Q8                          |
| Llama 3.1               | 70B       | 40GB       | 48GB                   | Q4, Q8                          |
| Qwen 2.5                | 72B       | 48GB       | 80GB                   | Q4, Q8                          |
| Mixtral                 | 8x7B      | 24 ГБ      | 48GB                   | Q4                              |
| DeepSeek-V3             | 671B      | 320GB+     | 640GB                  | FP8                             |
| **DeepSeek-R1**         | **671B**  | **320GB+** | **8x H100**            | **FP8, модель для рассуждений** |
| **DeepSeek-R1-Distill** | **32B**   | **20GB**   | **2x A100 / RTX 5090** | **Q4/Q8**                       |

### Модели генерации изображений

| Модель               | Мин. VRAM | Рекомендуется       | Примечания                         |
| -------------------- | --------- | ------------------- | ---------------------------------- |
| SD 1.5               | 4 ГБ      | 8GB                 | 512x512 родное                     |
| SD 2.1               | 6 ГБ      | 8GB                 | 768x768 родное                     |
| SDXL                 | 8GB       | 12GB                | 1024x1024 родное                   |
| SDXL Turbo           | 8GB       | 12GB                | 1-4 шага                           |
| **SD3.5 Large (8B)** | **16GB**  | **24 ГБ**           | **1024x1024, повышенное качество** |
| FLUX.1 schnell       | 12GB      | 16GB                | 4 шага, быстро                     |
| FLUX.1 dev           | 16GB      | 24 ГБ               | 20-50 шагов                        |
| **TRELLIS**          | **16GB**  | **24GB (RTX 4090)** | **3D-генерация из изображений**    |

### Модели генерации видео

| Модель                 | Мин. VRAM | Рекомендуется            | Выход                          |
| ---------------------- | --------- | ------------------------ | ------------------------------ |
| Stable Video Diffusion | 16GB      | 24 ГБ                    | 4 с, 576x1024                  |
| AnimateDiff            | 12GB      | 16GB                     | 2-4 с                          |
| **LTX-Video**          | **16GB**  | **24GB (RTX 4090/3090)** | **5 с, 768x512, очень быстро** |
| Wan2.1                 | 24 ГБ     | 40GB                     | 5 с, 480p-720p                 |
| Hunyuan Video          | 40GB      | 80GB                     | 5 с, 720p                      |
| OpenSora               | 24 ГБ     | 40GB                     | Переменно                      |

### Аудио-модели

| Модель           | Мин. VRAM | Рекомендуется | Задача           |
| ---------------- | --------- | ------------- | ---------------- |
| Whisper tiny     | 1GB       | 2GB           | Транскрипция     |
| Whisper base     | 1GB       | 2GB           | Транскрипция     |
| Whisper small    | 2GB       | 4 ГБ          | Транскрипция     |
| Whisper medium   | 4 ГБ      | 6 ГБ          | Транскрипция     |
| Whisper large-v3 | 6 ГБ      | 10GB          | Транскрипция     |
| Bark             | 8GB       | 12GB          | Текст-в-речь     |
| Stable Audio     | 8GB       | 12GB          | Генерация музыки |

### Визуальные и мульти-модальные модели

| Модель               | Мин. VRAM | Рекомендуется       | Задача                                               |
| -------------------- | --------- | ------------------- | ---------------------------------------------------- |
| Llama 3.2 Vision 11B | 12GB      | 16GB                | Понимание изображений                                |
| Llama 3.2 Vision 90B | 48GB      | 80GB                | Понимание изображений                                |
| LLaVA 7B             | 8GB       | 12GB                | Визуальные вопросы и ответы                          |
| LLaVA 13B            | 16GB      | 24 ГБ               | Визуальные вопросы и ответы                          |
| **Qwen2.5-VL 7B**    | **16GB**  | **24GB (RTX 4090)** | **Распознавание изображений/видео/документов (OCR)** |
| **Qwen2.5-VL 72B**   | **48GB**  | **2x A100 80GB**    | **Максимальная VL-возможность**                      |

### Инструменты дообучения и тренировки

| Инструмент / Метод   | Мин. VRAM | Рекомендуемый GPU | Задача                                  |
| -------------------- | --------- | ----------------- | --------------------------------------- |
| **Unsloth QLoRA 7B** | **12GB**  | **RTX 3090 24GB** | **В 2 раза быстрее QLoRA, низкий VRAM** |
| Unsloth QLoRA 13B    | 16GB      | RTX 4090 24GB     | Быстрое дообучение                      |
| LoRA (стандартный)   | 12GB      | RTX 3090          | Параметрически эффективное дообучение   |
| Полное дообучение 7B | 40GB      | A100 40GB         | Максимальное качество обучения          |

***

## Подробные таблицы совместимости

### LLM по GPU

| GPU              | Макс. модель (Q4) | Макс. модель (Q8) | Макс. модель (FP16) |
| ---------------- | ----------------- | ----------------- | ------------------- |
| RTX 3060 12GB    | 13B               | 7B                | 3B                  |
| RTX 3070 8GB     | 7B                | 3B                | 1B                  |
| RTX 3080 10GB    | 7B                | 7B                | 3B                  |
| RTX 3090 24GB    | 30B               | 13B               | 7B                  |
| RTX 4070 Ti 12GB | 13B               | 7B                | 3B                  |
| RTX 4080 16GB    | 14B               | 7B                | 7B                  |
| RTX 4090 24GB    | 30B               | 13B               | 7B                  |
| RTX 5090 32GB    | 70B               | 14B               | 13B                 |
| A100 40GB        | 70B               | 30B               | 14B                 |
| A100 80GB        | 70B               | 70B               | 30B                 |
| H100 80GB        | 70B               | 70B               | 30B                 |

### Генерация изображений по GPU

| GPU              | SD 1.5 | SDXL   | FLUX schnell | FLUX dev |
| ---------------- | ------ | ------ | ------------ | -------- |
| RTX 3060 12GB    | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 3070 8GB     | ✅ 512  | ⚠️ 512 | ❌            | ❌        |
| RTX 3080 10GB    | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 3090 24GB    | ✅ 768  | ✅ 1024 | ✅ 1024       | ⚠️ 768\* |
| RTX 4070 Ti 12GB | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 4080 16GB    | ✅ 768  | ✅ 1024 | ✅ 768        | ⚠️ 512\* |
| RTX 4090 24GB    | ✅ 1024 | ✅ 1024 | ✅ 1024       | ✅ 1024   |
| RTX 5090 32GB    | ✅ 1024 | ✅ 1024 | ✅ 1536       | ✅ 1536   |
| A100 40GB        | ✅ 1024 | ✅ 1024 | ✅ 1024       | ✅ 1024   |
| A100 80GB        | ✅ 2048 | ✅ 2048 | ✅ 1536       | ✅ 1536   |

\*С offload на CPU или уменьшенным размером пакета

### Генерация видео по GPU

| GPU           | SVD    | AnimateDiff | Wan2.1  | Hunyuan    |
| ------------- | ------ | ----------- | ------- | ---------- |
| RTX 3060 12GB | ❌      | ⚠️ коротко  | ❌       | ❌          |
| RTX 3090 24GB | ✅ 2-4с | ✅           | ⚠️ 480p | ❌          |
| RTX 4090 24GB | ✅ 4с   | ✅           | ✅ 480p  | ⚠️ коротко |
| RTX 5090 32GB | ✅ 6с   | ✅           | ✅ 720p  | ✅ 5с       |
| A100 40GB     | ✅ 4с   | ✅           | ✅ 720p  | ✅ 5с       |
| A100 80GB     | ✅ 8с   | ✅           | ✅ 720p  | ✅ 10с      |

***

## Руководство по квантованию

### Что такое квантование?

Квантование уменьшает точность модели, чтобы она занимала меньше VRAM:

| Формат   | Биты | Снижение VRAM   | Потеря качества |
| -------- | ---- | --------------- | --------------- |
| FP32     | 32   | Базовый уровень | Нет             |
| FP16     | 16   | 50%             | Минимальная     |
| BF16     | 16   | 50%             | Минимальная     |
| FP8      | 8    | 75%             | Небольшая       |
| Q8       | 8    | 75%             | Небольшая       |
| Q6\_K    | 6    | 81%             | Небольшая       |
| Q5\_K\_M | 5    | 84%             | Умеренная       |
| Q4\_K\_M | 4    | 87%             | Умеренная       |
| Q3\_K\_M | 3    | 91%             | Заметная        |
| Q2\_K    | 2    | 94%             | Значительная    |

### Калькулятор VRAM

**Формула:** `VRAM (GB) ≈ Параметры (B) × Байты на параметр`

| Размер модели | FP16   | Q8    | Q4     |
| ------------- | ------ | ----- | ------ |
| 1B            | 2 GB   | 1 GB  | 0.5 GB |
| 3B            | 6 GB   | 3 GB  | 1.5 GB |
| 7B            | 14 GB  | 7 GB  | 3.5 GB |
| 8B            | 16 GB  | 8 GB  | 4 GB   |
| 13B           | 26 GB  | 13 GB | 6.5 GB |
| 14B           | 28 GB  | 14 GB | 7 GB   |
| 30B           | 60 GB  | 30 GB | 15 GB  |
| 32B           | 64 GB  | 32 GB | 16 GB  |
| 70B           | 140 GB | 70 GB | 35 GB  |
| 72B           | 144 GB | 72 GB | 36 GB  |

\*Добавьте \~20% для KV-кэша и накладных расходов

### Рекомендуемое квантование по сценариям использования

| Случай использования | Рекомендуется | Почему                             |
| -------------------- | ------------- | ---------------------------------- |
| Чат/Общее            | Q4\_K\_M      | Хороший баланс скорости и качества |
| Кодирование          | Q5\_K\_M+     | Лучшая точность для кода           |
| Творческое письмо    | Q4\_K\_M      | Скорость важнее                    |
| Анализ               | Q6\_K+        | Требуется более высокая точность   |
| Продакшен            | FP16/BF16     | Максимальное качество              |

***

## Длина контекста vs VRAM

### Как контекст влияет на VRAM

У каждой модели есть окно контекста (макс. токенов). Длинный контекст = больше VRAM:

| Модель       | Контекст по умолчанию | Макс. контекст | VRAM на 1К токенов |
| ------------ | --------------------- | -------------- | ------------------ |
| Llama 3 8B   | 8K                    | 128K           | \~0.3 GB           |
| Llama 3 70B  | 8K                    | 128K           | \~0.5 GB           |
| Qwen 2.5 7B  | 8K                    | 128K           | \~0.25 GB          |
| Mistral 7B   | 8K                    | 32K            | \~0.25 GB          |
| Mixtral 8x7B | 32K                   | 32K            | \~0.4 GB           |

### Контекст по GPU (Llama 3 8B Q4)

| GPU           | Комфортный контекст | Максимальный контекст |
| ------------- | ------------------- | --------------------- |
| RTX 3060 12GB | 16K                 | 32K                   |
| RTX 3090 24GB | 64K                 | 96K                   |
| RTX 4090 24GB | 64K                 | 96K                   |
| RTX 5090 32GB | 96K                 | 128K                  |
| A100 40GB     | 96K                 | 128K                  |
| A100 80GB     | 128K                | 128K                  |

***

## Конфигурации с несколькими GPU

### Тензорный параллелизм

Разделите одну модель между несколькими GPU:

| Конфигурация | Общий VRAM | Макс. модель (FP16) |
| ------------ | ---------- | ------------------- |
| 2x RTX 3090  | 48GB       | 30B                 |
| 2x RTX 4090  | 48GB       | 30B                 |
| 2x RTX 5090  | 64GB       | 32B                 |
| 4x RTX 5090  | 128GB      | 70B                 |
| 2x A100 40GB | 80GB       | 70B                 |
| 4x A100 40GB | 160GB      | 100B+               |
| 8x A100 80GB | 640GB      | DeepSeek-V3         |

### vLLM Multi-GPU

```bash
# 2 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 2

# 4 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 4
```

***

## Руководства по конкретным моделям

### Семейство Llama 3.1

| Вариант        | Параметры | Мин. GPU     | Рекомендуемая конфигурация |
| -------------- | --------- | ------------ | -------------------------- |
| Llama 3.2 1B   | 1B        | Любой 4GB    | RTX 3060                   |
| Llama 3.2 3B   | 3B        | Любой 6GB    | RTX 3060                   |
| Llama 3.1 8B   | 8B        | RTX 3060     | RTX 3090                   |
| Llama 3.1 70B  | 70B       | A100 40GB    | 2x A100 40GB               |
| Llama 3.1 405B | 405B      | 8x A100 80GB | 8x H100                    |

### Семейство Mistral/Mixtral

| Вариант       | Параметры | Мин. GPU     | Рекомендуемая конфигурация |
| ------------- | --------- | ------------ | -------------------------- |
| Mistral 7B    | 7B        | RTX 3060     | RTX 3090                   |
| Mixtral 8x7B  | 46.7B     | RTX 3090     | A100 40GB                  |
| Mixtral 8x22B | 141B      | 2x A100 80GB | 4x A100 80GB               |

### Семейство Qwen 2.5

| Вариант       | Параметры | Мин. GPU  | Рекомендуемая конфигурация |
| ------------- | --------- | --------- | -------------------------- |
| Qwen 2.5 0.5B | 0.5B      | Любой 2GB | Любой 4GB                  |
| Qwen 2.5 1.5B | 1.5B      | Любой 4GB | RTX 3060                   |
| Qwen 2.5 3B   | 3B        | Любой 6GB | RTX 3060                   |
| Qwen 2.5 7B   | 7B        | RTX 3060  | RTX 3090                   |
| Qwen 2.5 14B  | 14B       | RTX 3090  | RTX 4090                   |
| Qwen 2.5 32B  | 32B       | RTX 4090  | A100 40GB                  |
| Qwen 2.5 72B  | 72B       | A100 40GB | A100 80GB                  |

### Модели DeepSeek

| Вариант                          | Параметры | Мин. GPU          | Рекомендуемая конфигурация |
| -------------------------------- | --------- | ----------------- | -------------------------- |
| DeepSeek-Coder 6.7B              | 6.7B      | RTX 3060          | RTX 3090                   |
| DeepSeek-Coder 33B               | 33B       | RTX 4090          | A100 40GB                  |
| DeepSeek-V2-Lite                 | 15.7B     | RTX 3090          | A100 40GB                  |
| DeepSeek-V3                      | 671B      | 8x A100 80GB      | 8x H100                    |
| **DeepSeek-R1**                  | **671B**  | **8x A100 80GB**  | **8x H100 (FP8)**          |
| **DeepSeek-R1-Distill-Qwen-32B** | **32B**   | **RTX 5090 32GB** | **2x A100 40GB**           |
| **DeepSeek-R1-Distill-Qwen-7B**  | **7B**    | **RTX 3090 24GB** | **RTX 4090**               |

***

## Устранение неполадок

### "CUDA out of memory"

1. **Уменьшите квантование:** Q8 → Q4
2. **Уменьшите длину контекста:** Уменьшите max\_tokens
3. **Включите offload на CPU:** `--cpu-offload` или `enable_model_cpu_offload()`
4. **Используйте меньший батч:** batch\_size=1
5. **Попробуйте другой GPU:** Нужен больший VRAM

### "Модель слишком большая"

1. **Используйте квантованную версию:** GGUF Q4 модели
2. **Используйте несколько GPU:** Тензорный параллелизм
3. **Выгрузка на CPU:** Медленнее, но работает
4. **Выберите меньшую модель:** 7B вместо 13B

### "Медленная генерация"

1. **Обновите GPU:** Больше VRAM = меньше выгрузок
2. **Используйте более быстрое квантование:** Q4 быстрее, чем Q8
3. **Уменьшите контекст:** Короткий = быстрее
4. **Включите flash attention:** `--flash-attn`

## Дальнейшие шаги

* [Сравнение GPU](/guides/guides_v2-ru/nachalo-raboty/gpu-comparison.md) - Подробные характеристики GPU
* [Каталог Docker-образов](/guides/guides_v2-ru/nachalo-raboty/docker-images.md) - Образы, готовые к развёртыванию
* [Руководство по быстрому старту](/guides/guides_v2-ru/quickstart.md) - Начните за 5 минут


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/nachalo-raboty/model-compatibility.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
