> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/language-models.md).

# Обзор

Запускайте большие языковые модели (LLM) на GPU CLORE.AI для задач инференса и чат-приложений.

## Популярные инструменты

| Инструмент                                                                              | Сценарий использования                                 | Сложность      |
| --------------------------------------------------------------------------------------- | ------------------------------------------------------ | -------------- |
| [Ollama](/guides/guides_v2-ru/yazykovye-modeli/ollama.md)                               | Самая простая настройка LLM                            | Для начинающих |
| [Open WebUI](/guides/guides_v2-ru/yazykovye-modeli/open-webui.md)                       | Интерфейс, похожий на ChatGPT                          | Для начинающих |
| [vLLM](/guides/guides_v2-ru/yazykovye-modeli/vllm.md)                                   | Высокопроизводительная серверная подача для продакшена | Средняя        |
| [Llama.cpp Server](/guides/guides_v2-ru/yazykovye-modeli/llamacpp-server.md)            | Эффективный GGUF-инференс                              | Лёгкий         |
| [Text Generation WebUI](/guides/guides_v2-ru/yazykovye-modeli/text-generation-webui.md) | Полнофункциональный чат-интерфейс                      | Лёгкий         |
| [ExLlamaV2](/guides/guides_v2-ru/yazykovye-modeli/exllamav2-fast.md)                    | Самый быстрый EXL2-инференс                            | Средняя        |
| [LocalAI](/guides/guides_v2-ru/yazykovye-modeli/localai-openai-compatible.md)           | API совместимый с OpenAI                               | Средняя        |
| [SGLang](/guides/guides_v2-ru/yazykovye-modeli/sglang.md)                               | Быстрая структурированная генерация                    | Средняя        |
| [Text Generation Inference (TGI)](/guides/guides_v2-ru/yazykovye-modeli/tgi.md)         | Решение для сервинга от HuggingFace                    | Средняя        |
| [LMDeploy](/guides/guides_v2-ru/yazykovye-modeli/lmdeploy.md)                           | Инструментарий сервинга MMlab                          | Средняя        |
| [Aphrodite Engine](/guides/guides_v2-ru/yazykovye-modeli/aphrodite-engine.md)           | Форк vLLM с дополнительными функциями                  | Средняя        |
| [MLC-LLM](/guides/guides_v2-ru/yazykovye-modeli/mlc-llm.md)                             | Компиляция машинного обучения                          | Сложно         |
| [LiteLLM](/guides/guides_v2-ru/yazykovye-modeli/litellm.md)                             | Единый прокси API                                      | Средняя        |
| [PowerInfer](/guides/guides_v2-ru/yazykovye-modeli/powerinfer.md)                       | Инференс для разреженных моделей                       | Сложно         |
| [Mistral.rs](/guides/guides_v2-ru/yazykovye-modeli/mistral-rs.md)                       | Инференс-движок на Rust                                | Средняя        |

## Руководства по моделям

### Последние и лучшие модели

| Модель                                                              | Параметры       | Лучше всего для                      |
| ------------------------------------------------------------------- | --------------- | ------------------------------------ |
| [DeepSeek-V3](/guides/guides_v2-ru/yazykovye-modeli/deepseek-v3.md) | 671B MoE        | Умозаключение, код, математика       |
| [DeepSeek-R1](/guides/guides_v2-ru/yazykovye-modeli/deepseek-r1.md) | 671B MoE        | Продвинутое рассуждение              |
| [DeepSeek V4](/guides/guides_v2-ru/yazykovye-modeli/deepseek-v4.md) | Будет объявлено | Модель следующего поколения DeepSeek |
| [Qwen2.5](/guides/guides_v2-ru/yazykovye-modeli/qwen25.md)          | 0.5B–72B        | Многоязычная, код                    |
| [Qwen3.5](/guides/guides_v2-ru/yazykovye-modeli/qwen35.md)          | Будет объявлено | Последнее поколение Qwen             |
| [Llama 3.3](/guides/guides_v2-ru/yazykovye-modeli/llama33.md)       | 70B             | Новейшая 70B от Meta                 |
| [Llama 4](/guides/guides_v2-ru/yazykovye-modeli/llama4.md)          | Будет объявлено | Варианты Scout и Maverick            |

### Специализированные модели

| Модель                                                                    | Параметры       | Лучше всего для                    |
| ------------------------------------------------------------------------- | --------------- | ---------------------------------- |
| [DeepSeek Coder](/guides/guides_v2-ru/yazykovye-modeli/deepseek-coder.md) | 6.7B–33B        | Генерация кода                     |
| [CodeLlama](/guides/guides_v2-ru/yazykovye-modeli/codellama.md)           | 7B–34B          | Дополнение кода                    |
| [GLM-4.7-Flash](/guides/guides_v2-ru/yazykovye-modeli/glm-47-flash.md)    | 4.7B            | Быстрый для китайского/английского |
| [GLM-5](/guides/guides_v2-ru/yazykovye-modeli/glm5.md)                    | Будет объявлено | Новейшая от Zhipu AI               |
| [Kimi K2.5](/guides/guides_v2-ru/yazykovye-modeli/kimi-k2.md)             | Будет объявлено | Moonshot AI модель                 |
| [Ling-2.5-1T](/guides/guides_v2-ru/yazykovye-modeli/ling25.md)            | 1T              | Массивная открытая LLM             |
| [LFM2-24B](/guides/guides_v2-ru/yazykovye-modeli/lfm2-24b.md)             | 24B             | Модель Liquid AI                   |
| [MiMo-V2-Flash](/guides/guides_v2-ru/yazykovye-modeli/mimo-v2-flash.md)   | Будет объявлено | Модель для быстрого инференса      |

### Эффективные модели

| Модель                                                                      | Параметры       | Лучше всего для                    |
| --------------------------------------------------------------------------- | --------------- | ---------------------------------- |
| [Gemma 2](/guides/guides_v2-ru/yazykovye-modeli/gemma2.md)                  | 2B–27B          | Эффективный инференс               |
| [Gemma 3](/guides/guides_v2-ru/yazykovye-modeli/gemma3.md)                  | Будет объявлено | Последняя компактная модель Google |
| [Phi-4](/guides/guides_v2-ru/yazykovye-modeli/phi4.md)                      | 14B             | Небольшая, но способная            |
| [Mistral/Mixtral](/guides/guides_v2-ru/yazykovye-modeli/mistral-mixtral.md) | 7B / 8x7B       | Универсального назначения          |
| [Mistral Large 3](/guides/guides_v2-ru/yazykovye-modeli/mistral-large3.md)  | 675B MoE        | Класс для предприятий              |
| [Mistral Small 3.1](/guides/guides_v2-ru/yazykovye-modeli/mistral-small.md) | Будет объявлено | Эффективный вариант Mistral        |

## Рекомендации по GPU

| Размер модели | Минимальный GPU | Рекомендуется |
| ------------- | --------------- | ------------- |
| 7B (Q4)       | RTX 3060 12GB   | RTX 3090      |
| 13B (Q4)      | RTX 3090 24GB   | RTX 4090      |
| 34B (Q4)      | 2x RTX 3090     | A100 40GB     |
| 70B (Q4)      | A100 80GB       | 2x A100       |

## Руководство по квантизации

| Формат   | Использование VRAM | Качество | Скорость        |
| -------- | ------------------ | -------- | --------------- |
| Q2\_K    | Низкое             | Плохо    | Самый быстрый   |
| Q4\_K\_M | Низкий             | Хорошо   | Быстро          |
| Q5\_K\_M | Средняя            | Отлично  | Средняя         |
| Q8\_0    | Высокое            | Отлично  | Медленнее       |
| FP16     | Наивысшее          | Лучшее   | Самый медленный |

## См. также

* [Обучение и дообучение](/guides/guides_v2-ru/obuchenie/training.md)
* [Модели «вид+язык»](/guides/guides_v2-ru/modeli-zreniya/vision-models.md)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/language-models.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.