Совместимость моделей

Матрица совместимости AI-моделей и GPU для Clore.ai

Полное руководство о том, какие модели ИИ работают на каких GPU на CLORE.AI.

Найдите GPU с подходящим объёмом VRAM на CLORE.AI Marketplace.

Быстрая справка

Языковые модели (LLM)

Модель

Параметры

Мин. VRAM

Рекомендуется

Квантование

Llama 3.2

2GB

4 ГБ

Q4, Q8, FP16

Llama 3.2

4 ГБ

6 ГБ

Q4, Q8, FP16

Llama 3.1/3

6 ГБ

12GB

Q4, Q8, FP16

Mistral

6 ГБ

12GB

Q4, Q8, FP16

Qwen 2.5

6 ГБ

12GB

Q4, Q8, FP16

Qwen 2.5

14B

12GB

16GB

Q4, Q8

Qwen 2.5

32B

20GB

24 ГБ

Q4, Q8

Llama 3.1

70B

40GB

48GB

Q4, Q8

Qwen 2.5

72B

48GB

80GB

Q4, Q8

Mixtral

8x7B

24 ГБ

48GB

DeepSeek-V3

671B

320GB+

640GB

FP8

DeepSeek-R1

671B

320GB+

8x H100

FP8, модель для рассуждений

DeepSeek-R1-Distill

32B

20GB

2x A100 / RTX 5090

Q4/Q8

Модели генерации изображений

Модель

Мин. VRAM

Рекомендуется

Примечания

SD 1.5

4 ГБ

8GB

512x512 родное

SD 2.1

6 ГБ

8GB

768x768 родное

SDXL

8GB

12GB

1024x1024 родное

SDXL Turbo

8GB

12GB

1-4 шага

SD3.5 Large (8B)

16GB

24 ГБ

1024x1024, повышенное качество

FLUX.1 schnell

12GB

16GB

4 шага, быстро

FLUX.1 dev

16GB

24 ГБ

20-50 шагов

TRELLIS

16GB

24GB (RTX 4090)

3D-генерация из изображений

Модели генерации видео

Модель

Мин. VRAM

Рекомендуется

Выход

Stable Video Diffusion

16GB

24 ГБ

4 с, 576x1024

AnimateDiff

12GB

16GB

2-4 с

LTX-Video

16GB

24GB (RTX 4090/3090)

5 с, 768x512, очень быстро

Wan2.1

24 ГБ

40GB

5 с, 480p-720p

Hunyuan Video

40GB

80GB

5 с, 720p

OpenSora

24 ГБ

40GB

Переменно

Аудио-модели

Модель

Мин. VRAM

Рекомендуется

Задача

Whisper tiny

1GB

2GB

Транскрипция

Whisper base

1GB

2GB

Транскрипция

Whisper small

2GB

4 ГБ

Транскрипция

Whisper medium

4 ГБ

6 ГБ

Транскрипция

Whisper large-v3

6 ГБ

10GB

Транскрипция

Bark

8GB

12GB

Текст-в-речь

Stable Audio

8GB

12GB

Генерация музыки

Визуальные и мульти-модальные модели

Модель

Мин. VRAM

Рекомендуется

Задача

Llama 3.2 Vision 11B

12GB

16GB

Понимание изображений

Llama 3.2 Vision 90B

48GB

80GB

Понимание изображений

LLaVA 7B

8GB

12GB

Визуальные вопросы и ответы

LLaVA 13B

16GB

24 ГБ

Визуальные вопросы и ответы

Qwen2.5-VL 7B

16GB

24GB (RTX 4090)

Распознавание изображений/видео/документов (OCR)

Qwen2.5-VL 72B

48GB

2x A100 80GB

Максимальная VL-возможность

Инструменты дообучения и тренировки

Инструмент / Метод

Мин. VRAM

Рекомендуемый GPU

Задача

Unsloth QLoRA 7B

12GB

RTX 3090 24GB

В 2 раза быстрее QLoRA, низкий VRAM

Unsloth QLoRA 13B

16GB

RTX 4090 24GB

Быстрое дообучение

LoRA (стандартный)

12GB

RTX 3090

Параметрически эффективное дообучение

Полное дообучение 7B

40GB

A100 40GB

Максимальное качество обучения

Подробные таблицы совместимости

LLM по GPU

GPU

Макс. модель (Q4)

Макс. модель (Q8)

Макс. модель (FP16)

RTX 3060 12GB

13B

RTX 3070 8GB

RTX 3080 10GB

RTX 3090 24GB

30B

13B

RTX 4070 Ti 12GB

13B

RTX 4080 16GB

14B

RTX 4090 24GB

30B

13B

RTX 5090 32GB

70B

14B

13B

A100 40GB

70B

30B

14B

A100 80GB

70B

30B

H100 80GB

70B

30B

Генерация изображений по GPU

GPU

SD 1.5

SDXL

FLUX schnell

FLUX dev

RTX 3060 12GB

✅ 512

✅ 768

⚠️ 512*

❌

RTX 3070 8GB

✅ 512

⚠️ 512

❌

RTX 3080 10GB

✅ 512

✅ 768

⚠️ 512*

❌

RTX 3090 24GB

✅ 768

✅ 1024

⚠️ 768*

RTX 4070 Ti 12GB

✅ 512

✅ 768

⚠️ 512*

❌

RTX 4080 16GB

✅ 768

✅ 1024

✅ 768

⚠️ 512*

RTX 4090 24GB

✅ 1024

RTX 5090 32GB

✅ 1024

✅ 1536

A100 40GB

✅ 1024

A100 80GB

✅ 2048

✅ 1536

*С offload на CPU или уменьшенным размером пакета

Генерация видео по GPU

GPU

SVD

AnimateDiff

Wan2.1

Hunyuan

RTX 3060 12GB

❌

⚠️ коротко

❌

RTX 3090 24GB

✅ 2-4с

✅

⚠️ 480p

❌

RTX 4090 24GB

✅ 4с

✅

✅ 480p

⚠️ коротко

RTX 5090 32GB

✅ 6с

✅

✅ 720p

✅ 5с

A100 40GB

✅ 4с

✅

✅ 720p

✅ 5с

A100 80GB

✅ 8с

✅

✅ 720p

✅ 10с

Руководство по квантованию

Что такое квантование?

Квантование уменьшает точность модели, чтобы она занимала меньше VRAM:

Формат

Биты

Снижение VRAM

Потеря качества

FP32

Базовый уровень

Нет

FP16

50%

Минимальная

BF16

50%

Минимальная

FP8

75%

Небольшая

75%

Небольшая

Q6_K

81%

Небольшая

Q5_K_M

84%

Умеренная

Q4_K_M

87%

Умеренная

Q3_K_M

91%

Заметная

Q2_K

94%

Значительная

Калькулятор VRAM

Формула: VRAM (GB) ≈ Параметры (B) × Байты на параметр

Размер модели

FP16

2 GB

1 GB

0.5 GB

6 GB

3 GB

1.5 GB

14 GB

7 GB

3.5 GB

16 GB

8 GB

4 GB

13B

26 GB

13 GB

6.5 GB

14B

28 GB

14 GB

7 GB

30B

60 GB

30 GB

15 GB

32B

64 GB

32 GB

16 GB

70B

140 GB

70 GB

35 GB

72B

144 GB

72 GB

36 GB

*Добавьте ~20% для KV-кэша и накладных расходов

Длина контекста vs VRAM

Как контекст влияет на VRAM

У каждой модели есть окно контекста (макс. токенов). Длинный контекст = больше VRAM:

Модель

Контекст по умолчанию

Макс. контекст

VRAM на 1К токенов

Llama 3 8B

128K

~0.3 GB

Llama 3 70B

128K

~0.5 GB

Qwen 2.5 7B

128K

~0.25 GB

Mistral 7B

32K

~0.25 GB

Mixtral 8x7B

32K

~0.4 GB

Контекст по GPU (Llama 3 8B Q4)

GPU

Комфортный контекст

Максимальный контекст

RTX 3060 12GB

16K

32K

RTX 3090 24GB

64K

96K

RTX 4090 24GB

64K

96K

RTX 5090 32GB

96K

128K

A100 40GB

96K

128K

A100 80GB

128K

Конфигурации с несколькими GPU

Тензорный параллелизм

Разделите одну модель между несколькими GPU:

Конфигурация

Общий VRAM

Макс. модель (FP16)

2x RTX 3090

48GB

30B

2x RTX 4090

48GB

30B

2x RTX 5090

64GB

32B

4x RTX 5090

128GB

70B

2x A100 40GB

80GB

70B

4x A100 40GB

160GB

100B+

8x A100 80GB

640GB

DeepSeek-V3

vLLM Multi-GPU

# 2 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 2

# 4 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 4

Руководства по конкретным моделям

Семейство Llama 3.1

Вариант

Параметры

Мин. GPU

Рекомендуемая конфигурация

Llama 3.2 1B

Любой 4GB

RTX 3060

Llama 3.2 3B

Любой 6GB

RTX 3060

Llama 3.1 8B

RTX 3060

RTX 3090

Llama 3.1 70B

70B

A100 40GB

2x A100 40GB

Llama 3.1 405B

405B

8x A100 80GB

8x H100

Семейство Mistral/Mixtral

Вариант

Параметры

Мин. GPU

Рекомендуемая конфигурация

Mistral 7B

RTX 3060

RTX 3090

Mixtral 8x7B

46.7B

RTX 3090

A100 40GB

Mixtral 8x22B

141B

2x A100 80GB

4x A100 80GB

Семейство Qwen 2.5

Вариант

Параметры

Мин. GPU

Рекомендуемая конфигурация

Qwen 2.5 0.5B

0.5B

Любой 2GB

Любой 4GB

Qwen 2.5 1.5B

1.5B

Любой 4GB

RTX 3060

Qwen 2.5 3B

Любой 6GB

RTX 3060

Qwen 2.5 7B

RTX 3060

RTX 3090

Qwen 2.5 14B

14B

RTX 3090

RTX 4090

Qwen 2.5 32B

32B

RTX 4090

A100 40GB

Qwen 2.5 72B

72B

A100 40GB

A100 80GB

Модели DeepSeek

Вариант

Параметры

Мин. GPU

Рекомендуемая конфигурация

DeepSeek-Coder 6.7B

6.7B

RTX 3060

RTX 3090

DeepSeek-Coder 33B

33B

RTX 4090

A100 40GB

DeepSeek-V2-Lite

15.7B

RTX 3090

A100 40GB

DeepSeek-V3

671B

8x A100 80GB

8x H100

DeepSeek-R1

671B

8x A100 80GB

8x H100 (FP8)

DeepSeek-R1-Distill-Qwen-32B

32B

RTX 5090 32GB

2x A100 40GB

DeepSeek-R1-Distill-Qwen-7B

RTX 3090 24GB

RTX 4090

Устранение неполадок

"CUDA out of memory"

Уменьшите квантование: Q8 → Q4
Уменьшите длину контекста: Уменьшите max_tokens
Включите offload на CPU: --cpu-offload или enable_model_cpu_offload()
Используйте меньший батч: batch_size=1
Попробуйте другой GPU: Нужен больший VRAM

"Модель слишком большая"

Используйте квантованную версию: GGUF Q4 модели
Используйте несколько GPU: Тензорный параллелизм
Выгрузка на CPU: Медленнее, но работает
Выберите меньшую модель: 7B вместо 13B

"Медленная генерация"

Обновите GPU: Больше VRAM = меньше выгрузок
Используйте более быстрое квантование: Q4 быстрее, чем Q8
Уменьшите контекст: Короткий = быстрее
Включите flash attention: --flash-attn

Дальнейшие шаги

Сравнение GPU - Подробные характеристики GPU
Каталог Docker-образов - Образы, готовые к развёртыванию
Руководство по быстрому старту - Начните за 5 минут

ПредыдущаяСравнение GPU СледующаяКалькулятор стоимости

Последнее обновление 22 дня назад

Это было полезно?

hashtagБыстрая справка

hashtagЯзыковые модели (LLM)

hashtagМодели генерации изображений

hashtagМодели генерации видео

hashtagАудио-модели

hashtagВизуальные и мульти-модальные модели

hashtagИнструменты дообучения и тренировки

hashtagПодробные таблицы совместимости

hashtagLLM по GPU

hashtagГенерация изображений по GPU

hashtagГенерация видео по GPU

hashtagРуководство по квантованию

hashtagЧто такое квантование?

hashtagКалькулятор VRAM

hashtagРекомендуемое квантование по сценариям использования

hashtagДлина контекста vs VRAM

hashtagКак контекст влияет на VRAM

hashtagКонтекст по GPU (Llama 3 8B Q4)

hashtagКонфигурации с несколькими GPU

hashtagТензорный параллелизм

hashtagvLLM Multi-GPU

hashtagРуководства по конкретным моделям

hashtagСемейство Llama 3.1

hashtagСемейство Mistral/Mixtral

hashtagСемейство Qwen 2.5

hashtagМодели DeepSeek

hashtagУстранение неполадок

hashtag"CUDA out of memory"

hashtag"Модель слишком большая"

hashtag"Медленная генерация"

hashtagДальнейшие шаги

Быстрая справка

Языковые модели (LLM)

Модели генерации изображений

Модели генерации видео

Аудио-модели

Визуальные и мульти-модальные модели

Инструменты дообучения и тренировки

Подробные таблицы совместимости

LLM по GPU

Генерация изображений по GPU

Генерация видео по GPU

Руководство по квантованию

Что такое квантование?

Калькулятор VRAM

Рекомендуемое квантование по сценариям использования

Длина контекста vs VRAM

Как контекст влияет на VRAM

Контекст по GPU (Llama 3 8B Q4)

Конфигурации с несколькими GPU

Тензорный параллелизм

vLLM Multi-GPU

Руководства по конкретным моделям

Семейство Llama 3.1

Семейство Mistral/Mixtral

Семейство Qwen 2.5

Модели DeepSeek

Устранение неполадок

"CUDA out of memory"

"Модель слишком большая"

"Медленная генерация"

Дальнейшие шаги