# Kimi K2.5

Kimi K2.5, выпущенная 27 января 2026 года компанией Moonshot AI, является **мультимодельной моделью Mixture-of-Experts с 1 триллионом параметров** с 32B активными параметрами на токен. Построенная посредством непрерывного предварительного обучения на \~15 триллионах смешанных визуальных и текстовых токенов поверх Kimi-K2-Base, она изначально понимает текст, изображения и видео. K2.5 внедряет **технологию Agent Swarm** — координацию до 100 специализированных агентов ИИ одновременно — и достигает передовых показателей в кодировании (76.8% SWE-bench Verified), в задачах зрения и агентных задачах. Доступна по **лицензии с открытыми весами** на HuggingFace.

## Ключевые особенности

* **1T всего / 32B активных** — архитектура MoE с 384 экспертами, MLA-вниманием и SwiGLU
* **Нативная мультимодальность** — предварительно обучена на vision–language токенах; понимает изображения, видео и текст
* **технологию Agent Swarm** — разлагает сложные задачи на параллельные подзадачи через динамически порождаемых агентов
* **Окно контекста 256K** — обрабатывает целые кодовые базы, длинные документы и расшифровки видео
* **Гибридное рассуждение** — поддерживает как режим мгновенного ответа (быстрый), так и режим размышления (глубокое рассуждение)
* **Сильные возможности в кодировании** — 76.8% SWE-bench Verified, 73.0% SWE-bench Multilingual

## Требования

Kimi K2.5 — массивная модель — чекпоинт FP8 занимает \~630 ГБ. Самостоятельный хостинг требует серьёзного железа.

| Компонент | Квантизировано (GGUF Q2) | FP8 Полный    |
| --------- | ------------------------ | ------------- |
| GPU       | 1× RTX 4090 + 256GB RAM  | 8× H200 141GB |
| VRAM      | 24GB + выгрузка на CPU   | 1,128GB       |
| ОЗУ       | 256GB+                   | 256GB         |
| Диск      | 400GB SSD                | 700GB NVMe    |
| CUDA      | 12.0+                    | 12.0+         |

**Рекомендация Clore.ai**: Для сервинга в полной точности арендуйте 8× H200 (\~$24–48/день). Для квантизованного локального вывода достаточно одной H100 80GB или даже RTX 4090 + значительная выгрузка на CPU, но со сниженной скоростью.

## Быстрый старт с llama.cpp (квантованная)

Самый доступный способ запустить K2.5 локально — используя GGUF-квантизации Unsloth:

```bash
# Клонировать и собрать llama.cpp
git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp
cmake -B build -DGGML_CUDA=ON && cmake --build build --config Release -j

# Скачать квантизованную модель (Q2_K_XL — 375GB, хороший баланс качества и размера)
huggingface-cli download unsloth/Kimi-K2.5-GGUF \
  Kimi-K2.5-UD-Q2_K_XL-00001-of-00005.gguf \
  Kimi-K2.5-UD-Q2_K_XL-00002-of-00005.gguf \
  Kimi-K2.5-UD-Q2_K_XL-00003-of-00005.gguf \
  Kimi-K2.5-UD-Q2_K_XL-00004-of-00005.gguf \
  Kimi-K2.5-UD-Q2_K_XL-00005-of-00005.gguf \
  --local-dir ./models

# Запустить инференс (настройте --n-gpu-layers под ваш VRAM)
./build/bin/llama-server \
  -m ./models/Kimi-K2.5-UD-Q2_K_XL-00001-of-00005.gguf \
  --n-gpu-layers 10 \
  --threads 32 \
  --ctx-size 16384 \
  --host 0.0.0.0 --port 8080
```

> **Примечание**: Поддержка зрения ещё не реализована в GGUF/llama.cpp для K2.5. Для мультимодальных функций используйте vLLM.

## Настройка vLLM (продакшн — полная модель)

Для продакшн-сервинга с полной мультимодальной поддержкой:

```bash
# Установить nightly-версию vLLM (K2.5 требует последней)
pip install -U vllm --pre \
  --extra-index-url https://wheels.vllm.ai/nightly/cu129 \
  --extra-index-url https://download.pytorch.org/whl/cu129 \
  --index-strategy unsafe-best-match
```

### Сервер на 8× H200 GPU

```bash
vllm serve moonshotai/Kimi-K2.5 \
  -tp 8 \
  --mm-encoder-tp-mode data \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2 \
  --trust-remote-code \
  --gpu-memory-utilization 0.90
```

### Запрос текстом

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.5",
    messages=[
        {"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."},
        {"role": "user", "content": "Write a FastAPI service with WebSocket support for real-time chat"}
    ],
    temperature=0.6,
    max_tokens=4096
)
print(response.choices[0].message.content)
```

### Запрос с изображением (мультимодальный)

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY", timeout=3600)

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.5",
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {"url": "https://example.com/diagram.png"}
            },
            {
                "type": "text",
                "text": "Describe this diagram in detail and extract all text."
            }
        ]
    }],
    max_tokens=2048
)
print(response.choices[0].message.content)
```

## Доступ к API (GPU не требуется)

Если самостоятельный хостинг — это излишне, используйте официальный API Moonshot:

```python
from openai import OpenAI

# Платформа Moonshot — API, совместимый с OpenAI
client = OpenAI(
    api_key="your-moonshot-api-key",
    base_url="https://api.moonshot.ai/v1"
)

response = client.chat.completions.create(
    model="kimi-k2.5",
    messages=[
        {"role": "user", "content": "Explain the Agent Swarm architecture in Kimi K2.5"}
    ],
    temperature=0.6,
    max_tokens=2048
)
print(response.choices[0].message.content)
```

## Вызов инструментов

K2.5 превосходна в агентном использовании инструментов:

```python
import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

tools = [{
    "type": "function",
    "function": {
        "name": "search_code",
        "description": "Search a codebase for relevant files and functions",
        "parameters": {
            "type": "object",
            "required": ["query"],
            "properties": {
                "query": {"type": "string", "description": "Search query"}
            }
        }
    }
}]

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.5",
    messages=[{"role": "user", "content": "Find all authentication-related code in the project"}],
    tools=tools,
    tool_choice="auto",
    temperature=0.6
)

for tool_call in response.choices[0].message.tool_calls:
    print(f"Function: {tool_call.function.name}")
    print(f"Args: {json.loads(tool_call.function.arguments)}")
```

## Быстрый старт с Docker

```bash
# Использование vLLM в Docker с 8 GPU
docker run --gpus all -p 8000:8000 \
  --ipc=host \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  vllm/vllm-openai:latest \
  --model moonshotai/Kimi-K2.5 \
  --tensor-parallel-size 8 \
  --mm-encoder-tp-mode data \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2 \
  --trust-remote-code
```

## Советы для пользователей Clore.ai

* **Трейд‑офф: API против самостоятельного хостинга**: Полный K2.5 требует 8× H200 примерно за \~$24–48/день. API Moonshot имеет бесплатный уровень или оплату за токен — используйте API для исследований, самостоятельный хостинг для длительных продакшн‑нагрузок.
* **Квантизовано для одного GPU**: Unsloth GGUF Q2\_K\_XL (\~375GB) может работать на RTX 4090 ($0.5–2/день) с 256GB RAM через выгрузку на CPU — ожидайте \~5–10 ток/с. Достаточно для личного использования и разработки.
* **Только текстовый K2 для бюджетных конфигураций**: Если вам не нужно зрение, `moonshotai/Kimi-K2-Instruct` — это текстовый предшественник — тот же 1T MoE, но легче разворачивается (без накладных расходов на энкодер зрения).
* **Правильно выставляйте temperature**: Используйте `temperature=0.6` для режима мгновенного ответа, `temperature=1.0` для режима размышления. Неправильная температура вызывает повторения или бессвязность.
* **Экспертный параллелизм для пропускной способности**: В многоузловых конфигурациях используйте `--enable-expert-parallel` в vLLM для более высокой пропускной способности. Смотрите документацию vLLM для настройки EP.

## Устранение неполадок

| Проблема                            | Решение                                                                                                 |
| ----------------------------------- | ------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` с полной моделью | Требуется 8× H200 (всего 1128GB). Используйте веса FP8, установите `--gpu-memory-utilization 0.90`.     |
| GGUF-инференс очень медленный       | Убедитесь, что достаточно ОЗУ для квантизованного размера. Q2\_K\_XL требует \~375GB суммарно ОЗУ+VRAM. |
| Зрение не работает в llama.cpp      | Поддержка зрения для K2.5 GGUF пока недоступна — используйте vLLM для мультимодальности.                |
| Повторяющийся вывод                 | Установите `temperature=0.6` (мгновенный) или `1.0` (размышляющий). Добавьте `min_p=0.01`.              |
| Скачивание модели занимает вечность | \~630GB чекпоинт FP8. Используйте `huggingface-cli download` с `--resume-download`.                     |
| Вызовы инструментов не распарсены   | Добавьте `--tool-call-parser kimi_k2 --enable-auto-tool-choice` к команде vLLM serve.                   |

## Дополнительное чтение

* [Kimi K2.5 на HuggingFace](https://huggingface.co/moonshotai/Kimi-K2.5)
* [Технический блог Kimi K2.5](https://www.kimi.com/blog/kimi-k2-5.html)
* [Статья (paper) Kimi K2.5](https://arxiv.org/abs/2602.02276)
* [Рецепт vLLM для K2.5](https://docs.vllm.ai/projects/recipes/en/latest/moonshotai/Kimi-K2.5.html)
* [Квантизации Unsloth GGUF](https://huggingface.co/unsloth/Kimi-K2.5-GGUF)
* [Платформа Moonshot API](https://platform.moonshot.ai)
* [Kimi K2 GitHub](https://github.com/MoonshotAI/Kimi-K2)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/kimi-k2.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
