Совместимость моделей

Матрица совместимости моделей ИИ и GPU для Clore.ai

Полное руководство о том, какие модели ИИ работают на каких GPU на CLORE.AI.

circle-check

Быстрая справка

Языковые модели (LLM)

Модель
Параметры
Мин. VRAM
Рекомендуется
Квантование

Llama 3.2

1B

2GB

4 ГБ

Q4, Q8, FP16

Llama 3.2

3B

4 ГБ

6 ГБ

Q4, Q8, FP16

Llama 3.1/3

8B

6 ГБ

12GB

Q4, Q8, FP16

Mistral

7B

6 ГБ

12GB

Q4, Q8, FP16

Qwen 2.5

7B

6 ГБ

12GB

Q4, Q8, FP16

Qwen 2.5

14B

12GB

16GB

Q4, Q8

Qwen 2.5

32B

20GB

24 ГБ

Q4, Q8

Llama 3.1

70B

40GB

48GB

Q4, Q8

Qwen 2.5

72B

48GB

80GB

Q4, Q8

Mixtral

8x7B

24 ГБ

48GB

Q4

DeepSeek-V3

671B

320GB+

640GB

FP8

DeepSeek-R1

671B

320GB+

8x H100

FP8, модель для рассуждений

DeepSeek-R1-Distill

32B

20GB

2x A100 / RTX 5090

Q4/Q8

Модели генерации изображений

Модель
Мин. VRAM
Рекомендуется
Примечания

SD 1.5

4 ГБ

8GB

512x512 родное

SD 2.1

6 ГБ

8GB

768x768 родное

SDXL

8GB

12GB

1024x1024 родное

SDXL Turbo

8GB

12GB

1-4 шага

SD3.5 Large (8B)

16GB

24 ГБ

1024x1024, повышенное качество

FLUX.1 schnell

12GB

16GB

4 шага, быстро

FLUX.1 dev

16GB

24 ГБ

20-50 шагов

TRELLIS

16GB

24GB (RTX 4090)

3D-генерация из изображений

Модели генерации видео

Модель
Мин. VRAM
Рекомендуется
Выход

Stable Video Diffusion

16GB

24 ГБ

4 с, 576x1024

AnimateDiff

12GB

16GB

2-4 с

LTX-Video

16GB

24GB (RTX 4090/3090)

5 с, 768x512, очень быстро

Wan2.1

24 ГБ

40GB

5 с, 480p-720p

Hunyuan Video

40GB

80GB

5 с, 720p

OpenSora

24 ГБ

40GB

Переменно

Аудио-модели

Модель
Мин. VRAM
Рекомендуется
Задача

Whisper tiny

1GB

2GB

Транскрипция

Whisper base

1GB

2GB

Транскрипция

Whisper small

2GB

4 ГБ

Транскрипция

Whisper medium

4 ГБ

6 ГБ

Транскрипция

Whisper large-v3

6 ГБ

10GB

Транскрипция

Bark

8GB

12GB

Текст-в-речь

Stable Audio

8GB

12GB

Генерация музыки

Визуальные и мульти-модальные модели

Модель
Мин. VRAM
Рекомендуется
Задача

Llama 3.2 Vision 11B

12GB

16GB

Понимание изображений

Llama 3.2 Vision 90B

48GB

80GB

Понимание изображений

LLaVA 7B

8GB

12GB

Визуальные вопросы и ответы

LLaVA 13B

16GB

24 ГБ

Визуальные вопросы и ответы

Qwen2.5-VL 7B

16GB

24GB (RTX 4090)

Распознавание изображений/видео/документов (OCR)

Qwen2.5-VL 72B

48GB

2x A100 80GB

Максимальная VL-возможность

Инструменты дообучения и тренировки

Инструмент / Метод
Мин. VRAM
Рекомендуемый GPU
Задача

Unsloth QLoRA 7B

12GB

RTX 3090 24GB

В 2 раза быстрее QLoRA, низкий VRAM

Unsloth QLoRA 13B

16GB

RTX 4090 24GB

Быстрое дообучение

LoRA (стандартный)

12GB

RTX 3090

Параметрически эффективное дообучение

Полное дообучение 7B

40GB

A100 40GB

Максимальное качество обучения


Подробные таблицы совместимости

LLM по GPU

GPU
Макс. модель (Q4)
Макс. модель (Q8)
Макс. модель (FP16)

RTX 3060 12GB

13B

7B

3B

RTX 3070 8GB

7B

3B

1B

RTX 3080 10GB

7B

7B

3B

RTX 3090 24GB

30B

13B

7B

RTX 4070 Ti 12GB

13B

7B

3B

RTX 4080 16GB

14B

7B

7B

RTX 4090 24GB

30B

13B

7B

RTX 5090 32GB

70B

14B

13B

A100 40GB

70B

30B

14B

A100 80GB

70B

70B

30B

H100 80GB

70B

70B

30B

Генерация изображений по GPU

GPU
SD 1.5
SDXL
FLUX schnell
FLUX dev

RTX 3060 12GB

✅ 512

✅ 768

⚠️ 512*

RTX 3070 8GB

✅ 512

⚠️ 512

RTX 3080 10GB

✅ 512

✅ 768

⚠️ 512*

RTX 3090 24GB

✅ 768

✅ 1024

✅ 1024

⚠️ 768*

RTX 4070 Ti 12GB

✅ 512

✅ 768

⚠️ 512*

RTX 4080 16GB

✅ 768

✅ 1024

✅ 768

⚠️ 512*

RTX 4090 24GB

✅ 1024

✅ 1024

✅ 1024

✅ 1024

RTX 5090 32GB

✅ 1024

✅ 1024

✅ 1536

✅ 1536

A100 40GB

✅ 1024

✅ 1024

✅ 1024

✅ 1024

A100 80GB

✅ 2048

✅ 2048

✅ 1536

✅ 1536

*С offload на CPU или уменьшенным размером пакета

Генерация видео по GPU

GPU
SVD
AnimateDiff
Wan2.1
Hunyuan

RTX 3060 12GB

⚠️ коротко

RTX 3090 24GB

✅ 2-4с

⚠️ 480p

RTX 4090 24GB

✅ 4с

✅ 480p

⚠️ коротко

RTX 5090 32GB

✅ 6с

✅ 720p

✅ 5с

A100 40GB

✅ 4с

✅ 720p

✅ 5с

A100 80GB

✅ 8с

✅ 720p

✅ 10с


Руководство по квантованию

Что такое квантование?

Квантование уменьшает точность модели, чтобы она занимала меньше VRAM:

Формат
Биты
Снижение VRAM
Потеря качества

FP32

32

Базовый уровень

Нет

FP16

16

50%

Минимальная

BF16

16

50%

Минимальная

FP8

8

75%

Небольшая

Q8

8

75%

Небольшая

Q6_K

6

81%

Небольшая

Q5_K_M

5

84%

Умеренная

Q4_K_M

4

87%

Умеренная

Q3_K_M

3

91%

Заметная

Q2_K

2

94%

Значительная

Калькулятор VRAM

Формула: VRAM (GB) ≈ Параметры (B) × Байты на параметр

Размер модели
FP16
Q8
Q4

1B

2 GB

1 GB

0.5 GB

3B

6 GB

3 GB

1.5 GB

7B

14 GB

7 GB

3.5 GB

8B

16 GB

8 GB

4 GB

13B

26 GB

13 GB

6.5 GB

14B

28 GB

14 GB

7 GB

30B

60 GB

30 GB

15 GB

32B

64 GB

32 GB

16 GB

70B

140 GB

70 GB

35 GB

72B

144 GB

72 GB

36 GB

*Добавьте ~20% для KV-кэша и накладных расходов

Рекомендуемое квантование по сценариям использования

Случай использования
Рекомендуется
Почему

Чат/Общее

Q4_K_M

Хороший баланс скорости и качества

Кодирование

Q5_K_M+

Лучшая точность для кода

Творческое письмо

Q4_K_M

Скорость важнее

Анализ

Q6_K+

Требуется более высокая точность

Продакшен

FP16/BF16

Максимальное качество


Длина контекста vs VRAM

Как контекст влияет на VRAM

У каждой модели есть окно контекста (макс. токенов). Длинный контекст = больше VRAM:

Модель
Контекст по умолчанию
Макс. контекст
VRAM на 1К токенов

Llama 3 8B

8K

128K

~0.3 GB

Llama 3 70B

8K

128K

~0.5 GB

Qwen 2.5 7B

8K

128K

~0.25 GB

Mistral 7B

8K

32K

~0.25 GB

Mixtral 8x7B

32K

32K

~0.4 GB

Контекст по GPU (Llama 3 8B Q4)

GPU
Комфортный контекст
Максимальный контекст

RTX 3060 12GB

16K

32K

RTX 3090 24GB

64K

96K

RTX 4090 24GB

64K

96K

RTX 5090 32GB

96K

128K

A100 40GB

96K

128K

A100 80GB

128K

128K


Конфигурации с несколькими GPU

Тензорный параллелизм

Разделите одну модель между несколькими GPU:

Конфигурация
Общий VRAM
Макс. модель (FP16)

2x RTX 3090

48GB

30B

2x RTX 4090

48GB

30B

2x RTX 5090

64GB

32B

4x RTX 5090

128GB

70B

2x A100 40GB

80GB

70B

4x A100 40GB

160GB

100B+

8x A100 80GB

640GB

DeepSeek-V3

vLLM Multi-GPU


Руководства по конкретным моделям

Семейство Llama 3.1

Вариант
Параметры
Мин. GPU
Рекомендуемая конфигурация

Llama 3.2 1B

1B

Любой 4GB

RTX 3060

Llama 3.2 3B

3B

Любой 6GB

RTX 3060

Llama 3.1 8B

8B

RTX 3060

RTX 3090

Llama 3.1 70B

70B

A100 40GB

2x A100 40GB

Llama 3.1 405B

405B

8x A100 80GB

8x H100

Семейство Mistral/Mixtral

Вариант
Параметры
Мин. GPU
Рекомендуемая конфигурация

Mistral 7B

7B

RTX 3060

RTX 3090

Mixtral 8x7B

46.7B

RTX 3090

A100 40GB

Mixtral 8x22B

141B

2x A100 80GB

4x A100 80GB

Семейство Qwen 2.5

Вариант
Параметры
Мин. GPU
Рекомендуемая конфигурация

Qwen 2.5 0.5B

0.5B

Любой 2GB

Любой 4GB

Qwen 2.5 1.5B

1.5B

Любой 4GB

RTX 3060

Qwen 2.5 3B

3B

Любой 6GB

RTX 3060

Qwen 2.5 7B

7B

RTX 3060

RTX 3090

Qwen 2.5 14B

14B

RTX 3090

RTX 4090

Qwen 2.5 32B

32B

RTX 4090

A100 40GB

Qwen 2.5 72B

72B

A100 40GB

A100 80GB

Модели DeepSeek

Вариант
Параметры
Мин. GPU
Рекомендуемая конфигурация

DeepSeek-Coder 6.7B

6.7B

RTX 3060

RTX 3090

DeepSeek-Coder 33B

33B

RTX 4090

A100 40GB

DeepSeek-V2-Lite

15.7B

RTX 3090

A100 40GB

DeepSeek-V3

671B

8x A100 80GB

8x H100

DeepSeek-R1

671B

8x A100 80GB

8x H100 (FP8)

DeepSeek-R1-Distill-Qwen-32B

32B

RTX 5090 32GB

2x A100 40GB

DeepSeek-R1-Distill-Qwen-7B

7B

RTX 3090 24GB

RTX 4090


Устранение неполадок

"CUDA out of memory"

  1. Уменьшите квантование: Q8 → Q4

  2. Уменьшите длину контекста: Уменьшите max_tokens

  3. Включите offload на CPU: --cpu-offload или enable_model_cpu_offload()

  4. Используйте меньший батч: batch_size=1

  5. Попробуйте другой GPU: Нужен больший VRAM

"Модель слишком большая"

  1. Используйте квантованную версию: GGUF Q4 модели

  2. Используйте несколько GPU: Тензорный параллелизм

  3. Выгрузка на CPU: Медленнее, но работает

  4. Выберите меньшую модель: 7B вместо 13B

"Медленная генерация"

  1. Обновите GPU: Больше VRAM = меньше выгрузок

  2. Используйте более быстрое квантование: Q4 быстрее, чем Q8

  3. Уменьшите контекст: Короткий = быстрее

  4. Включите flash attention: --flash-attn

Дальнейшие шаги

Последнее обновление

Это было полезно?