Kimi K2.5

Разверните Kimi K2.5 (1T MoE мультимодальная) от Moonshot AI на GPU Clore.ai

Kimi K2.5, выпущенная 27 января 2026 года компанией Moonshot AI, является мультимодельной моделью Mixture-of-Experts с 1 триллионом параметров с 32B активными параметрами на токен. Построенная посредством непрерывного предварительного обучения на ~15 триллионах смешанных визуальных и текстовых токенов поверх Kimi-K2-Base, она изначально понимает текст, изображения и видео. K2.5 внедряет технологию Agent Swarm — координацию до 100 специализированных агентов ИИ одновременно — и достигает передовых показателей в кодировании (76.8% SWE-bench Verified), в задачах зрения и агентных задачах. Доступна по лицензии с открытыми весами на HuggingFace.

Ключевые особенности

1T всего / 32B активных — архитектура MoE с 384 экспертами, MLA-вниманием и SwiGLU
Нативная мультимодальность — предварительно обучена на vision–language токенах; понимает изображения, видео и текст
технологию Agent Swarm — разлагает сложные задачи на параллельные подзадачи через динамически порождаемых агентов
Окно контекста 256K — обрабатывает целые кодовые базы, длинные документы и расшифровки видео
Гибридное рассуждение — поддерживает как режим мгновенного ответа (быстрый), так и режим размышления (глубокое рассуждение)
Сильные возможности в кодировании — 76.8% SWE-bench Verified, 73.0% SWE-bench Multilingual

Требования

Kimi K2.5 — массивная модель — чекпоинт FP8 занимает ~630 ГБ. Самостоятельный хостинг требует серьёзного железа.

Компонент

Квантизировано (GGUF Q2)

FP8 Полный

GPU

1× RTX 4090 + 256GB RAM

8× H200 141GB

VRAM

24GB + выгрузка на CPU

1,128GB

ОЗУ

256GB+

256GB

Диск

400GB SSD

700GB NVMe

CUDA

12.0+

Рекомендация Clore.ai: Для сервинга в полной точности арендуйте 8× H200 (~$24–48/день). Для квантизованного локального вывода достаточно одной H100 80GB или даже RTX 4090 + значительная выгрузка на CPU, но со сниженной скоростью.

Быстрый старт с llama.cpp (квантованная)

Самый доступный способ запустить K2.5 локально — используя GGUF-квантизации Unsloth:

# Клонировать и собрать llama.cpp
git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp
cmake -B build -DGGML_CUDA=ON && cmake --build build --config Release -j

# Скачать квантизованную модель (Q2_K_XL — 375GB, хороший баланс качества и размера)
huggingface-cli download unsloth/Kimi-K2.5-GGUF \
  Kimi-K2.5-UD-Q2_K_XL-00001-of-00005.gguf \
  Kimi-K2.5-UD-Q2_K_XL-00002-of-00005.gguf \
  Kimi-K2.5-UD-Q2_K_XL-00003-of-00005.gguf \
  Kimi-K2.5-UD-Q2_K_XL-00004-of-00005.gguf \
  Kimi-K2.5-UD-Q2_K_XL-00005-of-00005.gguf \
  --local-dir ./models

# Запустить инференс (настройте --n-gpu-layers под ваш VRAM)
./build/bin/llama-server \
  -m ./models/Kimi-K2.5-UD-Q2_K_XL-00001-of-00005.gguf \
  --n-gpu-layers 10 \
  --threads 32 \
  --ctx-size 16384 \
  --host 0.0.0.0 --port 8080

Примечание: Поддержка зрения ещё не реализована в GGUF/llama.cpp для K2.5. Для мультимодальных функций используйте vLLM.

Настройка vLLM (продакшн — полная модель)

Для продакшн-сервинга с полной мультимодальной поддержкой:

# Установить nightly-версию vLLM (K2.5 требует последней)
pip install -U vllm --pre \
  --extra-index-url https://wheels.vllm.ai/nightly/cu129 \
  --extra-index-url https://download.pytorch.org/whl/cu129 \
  --index-strategy unsafe-best-match

Сервер на 8× H200 GPU

vllm serve moonshotai/Kimi-K2.5 \
  -tp 8 \
  --mm-encoder-tp-mode data \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2 \
  --trust-remote-code \
  --gpu-memory-utilization 0.90

Запрос текстом

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.5",
    messages=[
        {"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."},
        {"role": "user", "content": "Write a FastAPI service with WebSocket support for real-time chat"}
    ],
    temperature=0.6,
    max_tokens=4096
)
print(response.choices[0].message.content)

Запрос с изображением (мультимодальный)

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY", timeout=3600)

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.5",
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {"url": "https://example.com/diagram.png"}
            },
            {
                "type": "text",
                "text": "Describe this diagram in detail and extract all text."
            }
        ]
    }],
    max_tokens=2048
)
print(response.choices[0].message.content)

Доступ к API (GPU не требуется)

Если самостоятельный хостинг — это излишне, используйте официальный API Moonshot:

from openai import OpenAI

# Платформа Moonshot — API, совместимый с OpenAI
client = OpenAI(
    api_key="your-moonshot-api-key",
    base_url="https://api.moonshot.ai/v1"
)

response = client.chat.completions.create(
    model="kimi-k2.5",
    messages=[
        {"role": "user", "content": "Explain the Agent Swarm architecture in Kimi K2.5"}
    ],
    temperature=0.6,
    max_tokens=2048
)
print(response.choices[0].message.content)

Вызов инструментов

K2.5 превосходна в агентном использовании инструментов:

import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

tools = [{
    "type": "function",
    "function": {
        "name": "search_code",
        "description": "Search a codebase for relevant files and functions",
        "parameters": {
            "type": "object",
            "required": ["query"],
            "properties": {
                "query": {"type": "string", "description": "Search query"}
            }
        }
    }
}]

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.5",
    messages=[{"role": "user", "content": "Find all authentication-related code in the project"}],
    tools=tools,
    tool_choice="auto",
    temperature=0.6
)

for tool_call in response.choices[0].message.tool_calls:
    print(f"Function: {tool_call.function.name}")
    print(f"Args: {json.loads(tool_call.function.arguments)}")

Быстрый старт с Docker

# Использование vLLM в Docker с 8 GPU
docker run --gpus all -p 8000:8000 \
  --ipc=host \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  vllm/vllm-openai:latest \
  --model moonshotai/Kimi-K2.5 \
  --tensor-parallel-size 8 \
  --mm-encoder-tp-mode data \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2 \
  --trust-remote-code

Советы для пользователей Clore.ai

Трейд‑офф: API против самостоятельного хостинга: Полный K2.5 требует 8× H200 примерно за ~$24–48/день. API Moonshot имеет бесплатный уровень или оплату за токен — используйте API для исследований, самостоятельный хостинг для длительных продакшн‑нагрузок.
Квантизовано для одного GPU: Unsloth GGUF Q2_K_XL (~375GB) может работать на RTX 4090 ($0.5–2/день) с 256GB RAM через выгрузку на CPU — ожидайте ~5–10 ток/с. Достаточно для личного использования и разработки.
Только текстовый K2 для бюджетных конфигураций: Если вам не нужно зрение, moonshotai/Kimi-K2-Instruct — это текстовый предшественник — тот же 1T MoE, но легче разворачивается (без накладных расходов на энкодер зрения).
Правильно выставляйте temperature: Используйте temperature=0.6 для режима мгновенного ответа, temperature=1.0 для режима размышления. Неправильная температура вызывает повторения или бессвязность.
Экспертный параллелизм для пропускной способности: В многоузловых конфигурациях используйте --enable-expert-parallel в vLLM для более высокой пропускной способности. Смотрите документацию vLLM для настройки EP.

Устранение неполадок

Проблема

Решение

OutOfMemoryError с полной моделью

Требуется 8× H200 (всего 1128GB). Используйте веса FP8, установите --gpu-memory-utilization 0.90.

GGUF-инференс очень медленный

Убедитесь, что достаточно ОЗУ для квантизованного размера. Q2_K_XL требует ~375GB суммарно ОЗУ+VRAM.

Зрение не работает в llama.cpp

Поддержка зрения для K2.5 GGUF пока недоступна — используйте vLLM для мультимодальности.

Повторяющийся вывод

Установите temperature=0.6 (мгновенный) или 1.0 (размышляющий). Добавьте min_p=0.01.

Скачивание модели занимает вечность

~630GB чекпоинт FP8. Используйте huggingface-cli download с --resume-download.

Вызовы инструментов не распарсены

Добавьте --tool-call-parser kimi_k2 --enable-auto-tool-choice к команде vLLM serve.

Дополнительное чтение

ПредыдущаяGLM-4.7-Flash СледующаяMistral Large 3 (675B MoE)

Последнее обновление 22 дня назад

Это было полезно?

hashtagКлючевые особенности

hashtagТребования

hashtagБыстрый старт с llama.cpp (квантованная)

hashtagНастройка vLLM (продакшн — полная модель)

hashtagСервер на 8× H200 GPU

hashtagЗапрос текстом

hashtagЗапрос с изображением (мультимодальный)

hashtagДоступ к API (GPU не требуется)

hashtagВызов инструментов

hashtagБыстрый старт с Docker

hashtagСоветы для пользователей Clore.ai

hashtagУстранение неполадок

hashtagДополнительное чтение