Обзор

Запускайте большие языковые модели (LLM) на GPU CLORE.AI для задач инференса и чат-приложений.

Популярные инструменты

Инструмент
Сценарий использования
Сложность

Самая простая настройка LLM

Для начинающих

Интерфейс, похожий на ChatGPT

Для начинающих

Высокопроизводительная серверная подача для продакшена

Средняя

Эффективный GGUF-инференс

Лёгкий

Полнофункциональный чат-интерфейс

Лёгкий

Самый быстрый EXL2-инференс

Средняя

API совместимый с OpenAI

Средняя

Быстрая структурированная генерация

Средняя

Решение для сервинга от HuggingFace

Средняя

Инструментарий сервинга MMlab

Средняя

Форк vLLM с дополнительными функциями

Средняя

Компиляция машинного обучения

Сложно

Единый прокси API

Средняя

Инференс для разреженных моделей

Сложно

Инференс-движок на Rust

Средняя

Руководства по моделям

Последние и лучшие модели

Модель
Параметры
Лучше всего для

671B MoE

Умозаключение, код, математика

671B MoE

Продвинутое рассуждение

Будет объявлено

Модель следующего поколения DeepSeek

0.5B–72B

Многоязычная, код

Будет объявлено

Последнее поколение Qwen

70B

Новейшая 70B от Meta

Будет объявлено

Варианты Scout и Maverick

Специализированные модели

Модель
Параметры
Лучше всего для

6.7B–33B

Генерация кода

7B–34B

Дополнение кода

4.7B

Быстрый для китайского/английского

Будет объявлено

Новейшая от Zhipu AI

Будет объявлено

Moonshot AI модель

1T

Массивная открытая LLM

24B

Модель Liquid AI

Будет объявлено

Модель для быстрого инференса

Эффективные модели

Модель
Параметры
Лучше всего для

2B–27B

Эффективный инференс

Будет объявлено

Последняя компактная модель Google

14B

Небольшая, но способная

7B / 8x7B

Универсального назначения

675B MoE

Класс для предприятий

Будет объявлено

Эффективный вариант Mistral

Рекомендации по GPU

Размер модели
Минимальный GPU
Рекомендуется

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

Руководство по квантизации

Формат
Использование VRAM
Качество
Скорость

Q2_K

Низкое

Плохо

Самый быстрый

Q4_K_M

Низкий

Хорошо

Быстро

Q5_K_M

Средняя

Отлично

Средняя

Q8_0

Высокое

Отлично

Медленнее

FP16

Наивысшее

Лучшее

Самый медленный

См. также

Последнее обновление

Это было полезно?