Обзор

Запускайте большие языковые модели (LLM) на GPU CLORE.AI для задач вывода и чат-приложений.

Популярные инструменты

Инструмент
Случай использования
Сложность

Самая простая настройка LLM

Для начинающих

Интерфейс, похожий на ChatGPT

Для начинающих

Высокопроизводительное промышленное обслуживание

Средне

Эффективный вывод GGUF

Лёгкий

Полнофункциональный чат-интерфейс

Лёгкий

Самый быстрый вывод EXL2

Средне

Совместимый с API OpenAI

Средне

Руководства по моделям

Модель
Параметры
Лучше всего для

671B MoE

Рассуждения, код, математика

0.5B-72B

Многоязычная, для кода

7B / 8x7B

Универсальное назначение

6.7B-33B

Генерация кода

7B-34B

Дополнение кода

2B-27B

Эффективный вывод

14B

Небольшая, но способная

Рекомендации по GPU

Размер модели
Минимальная GPU
Рекомендуется

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

Руководство по квантизации

Формат
Использование VRAM
Качество
Скорость

Q2_K

Самый низкий

Плохо

Самая быстрая

Q4_K_M

Низкая

Хорошо

Быстро

Q5_K_M

Средне

Отлично

Средне

Q8_0

Высокий

Отлично

Медленнее

FP16

Самый высокий

Лучшее

Самый медленный

См. также

Последнее обновление

Это было полезно?