# Обзор

Запускайте большие языковые модели (LLM) на GPU CLORE.AI для задач инференса и чат-приложений.

## Популярные инструменты

| Инструмент                                                                                                | Сценарий использования                                 | Сложность      |
| --------------------------------------------------------------------------------------------------------- | ------------------------------------------------------ | -------------- |
| [Ollama](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/ollama)                               | Самая простая настройка LLM                            | Для начинающих |
| [Open WebUI](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/open-webui)                       | Интерфейс, похожий на ChatGPT                          | Для начинающих |
| [vLLM](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/vllm)                                   | Высокопроизводительная серверная подача для продакшена | Средняя        |
| [Llama.cpp Server](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/llamacpp-server)            | Эффективный GGUF-инференс                              | Лёгкий         |
| [Text Generation WebUI](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/text-generation-webui) | Полнофункциональный чат-интерфейс                      | Лёгкий         |
| [ExLlamaV2](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/exllamav2-fast)                    | Самый быстрый EXL2-инференс                            | Средняя        |
| [LocalAI](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/localai-openai-compatible)           | API совместимый с OpenAI                               | Средняя        |
| [SGLang](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/sglang)                               | Быстрая структурированная генерация                    | Средняя        |
| [Text Generation Inference (TGI)](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/tgi)         | Решение для сервинга от HuggingFace                    | Средняя        |
| [LMDeploy](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/lmdeploy)                           | Инструментарий сервинга MMlab                          | Средняя        |
| [Aphrodite Engine](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/aphrodite-engine)           | Форк vLLM с дополнительными функциями                  | Средняя        |
| [MLC-LLM](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/mlc-llm)                             | Компиляция машинного обучения                          | Сложно         |
| [LiteLLM](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/litellm)                             | Единый прокси API                                      | Средняя        |
| [PowerInfer](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/powerinfer)                       | Инференс для разреженных моделей                       | Сложно         |
| [Mistral.rs](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/mistral-rs)                       | Инференс-движок на Rust                                | Средняя        |

## Руководства по моделям

### Последние и лучшие модели

| Модель                                                                                | Параметры       | Лучше всего для                      |
| ------------------------------------------------------------------------------------- | --------------- | ------------------------------------ |
| [DeepSeek-V3](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/deepseek-v3) | 671B MoE        | Умозаключение, код, математика       |
| [DeepSeek-R1](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/deepseek-r1) | 671B MoE        | Продвинутое рассуждение              |
| [DeepSeek V4](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/deepseek-v4) | Будет объявлено | Модель следующего поколения DeepSeek |
| [Qwen2.5](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/qwen25)          | 0.5B–72B        | Многоязычная, код                    |
| [Qwen3.5](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/qwen35)          | Будет объявлено | Последнее поколение Qwen             |
| [Llama 3.3](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/llama33)       | 70B             | Новейшая 70B от Meta                 |
| [Llama 4](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/llama4)          | Будет объявлено | Варианты Scout и Maverick            |

### Специализированные модели

| Модель                                                                                      | Параметры       | Лучше всего для                    |
| ------------------------------------------------------------------------------------------- | --------------- | ---------------------------------- |
| [DeepSeek Coder](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/deepseek-coder) | 6.7B–33B        | Генерация кода                     |
| [CodeLlama](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/codellama)           | 7B–34B          | Дополнение кода                    |
| [GLM-4.7-Flash](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/glm-47-flash)    | 4.7B            | Быстрый для китайского/английского |
| [GLM-5](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/glm5)                    | Будет объявлено | Новейшая от Zhipu AI               |
| [Kimi K2.5](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/kimi-k2)             | Будет объявлено | Moonshot AI модель                 |
| [Ling-2.5-1T](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/ling25)            | 1T              | Массивная открытая LLM             |
| [LFM2-24B](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/lfm2-24b)             | 24B             | Модель Liquid AI                   |
| [MiMo-V2-Flash](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/mimo-v2-flash)   | Будет объявлено | Модель для быстрого инференса      |

### Эффективные модели

| Модель                                                                                        | Параметры       | Лучше всего для                    |
| --------------------------------------------------------------------------------------------- | --------------- | ---------------------------------- |
| [Gemma 2](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/gemma2)                  | 2B–27B          | Эффективный инференс               |
| [Gemma 3](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/gemma3)                  | Будет объявлено | Последняя компактная модель Google |
| [Phi-4](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/phi4)                      | 14B             | Небольшая, но способная            |
| [Mistral/Mixtral](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/mistral-mixtral) | 7B / 8x7B       | Универсального назначения          |
| [Mistral Large 3](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/mistral-large3)  | 675B MoE        | Класс для предприятий              |
| [Mistral Small 3.1](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/mistral-small) | Будет объявлено | Эффективный вариант Mistral        |

## Рекомендации по GPU

| Размер модели | Минимальный GPU | Рекомендуется |
| ------------- | --------------- | ------------- |
| 7B (Q4)       | RTX 3060 12GB   | RTX 3090      |
| 13B (Q4)      | RTX 3090 24GB   | RTX 4090      |
| 34B (Q4)      | 2x RTX 3090     | A100 40GB     |
| 70B (Q4)      | A100 80GB       | 2x A100       |

## Руководство по квантизации

| Формат   | Использование VRAM | Качество | Скорость        |
| -------- | ------------------ | -------- | --------------- |
| Q2\_K    | Низкое             | Плохо    | Самый быстрый   |
| Q4\_K\_M | Низкий             | Хорошо   | Быстро          |
| Q5\_K\_M | Средняя            | Отлично  | Средняя         |
| Q8\_0    | Высокое            | Отлично  | Медленнее       |
| FP16     | Наивысшее          | Лучшее   | Самый медленный |

## См. также

* [Обучение и дообучение](https://docs.clore.ai/guides/guides_v2-ru/obuchenie/training)
* [Модели «вид+язык»](https://docs.clore.ai/guides/guides_v2-ru/modeli-zreniya/vision-models)
