Kimi K2.5

Разверните Kimi K2.5 (1T MoE мультимодальная) от Moonshot AI на GPU Clore.ai

Kimi K2.5, выпущенная 27 января 2026 года компанией Moonshot AI, является мультимодельной моделью Mixture-of-Experts с 1 триллионом параметров с 32B активными параметрами на токен. Построенная посредством непрерывного предварительного обучения на ~15 триллионах смешанных визуальных и текстовых токенов поверх Kimi-K2-Base, она изначально понимает текст, изображения и видео. K2.5 внедряет технологию Agent Swarm — координацию до 100 специализированных агентов ИИ одновременно — и достигает передовых показателей в кодировании (76.8% SWE-bench Verified), в задачах зрения и агентных задачах. Доступна по лицензии с открытыми весами на HuggingFace.

Ключевые особенности

  • 1T всего / 32B активных — архитектура MoE с 384 экспертами, MLA-вниманием и SwiGLU

  • Нативная мультимодальность — предварительно обучена на vision–language токенах; понимает изображения, видео и текст

  • технологию Agent Swarm — разлагает сложные задачи на параллельные подзадачи через динамически порождаемых агентов

  • Окно контекста 256K — обрабатывает целые кодовые базы, длинные документы и расшифровки видео

  • Гибридное рассуждение — поддерживает как режим мгновенного ответа (быстрый), так и режим размышления (глубокое рассуждение)

  • Сильные возможности в кодировании — 76.8% SWE-bench Verified, 73.0% SWE-bench Multilingual

Требования

Kimi K2.5 — массивная модель — чекпоинт FP8 занимает ~630 ГБ. Самостоятельный хостинг требует серьёзного железа.

Компонент
Квантизировано (GGUF Q2)
FP8 Полный

GPU

1× RTX 4090 + 256GB RAM

8× H200 141GB

VRAM

24GB + выгрузка на CPU

1,128GB

ОЗУ

256GB+

256GB

Диск

400GB SSD

700GB NVMe

CUDA

12.0+

12.0+

Рекомендация Clore.ai: Для сервинга в полной точности арендуйте 8× H200 (~$24–48/день). Для квантизованного локального вывода достаточно одной H100 80GB или даже RTX 4090 + значительная выгрузка на CPU, но со сниженной скоростью.

Быстрый старт с llama.cpp (квантованная)

Самый доступный способ запустить K2.5 локально — используя GGUF-квантизации Unsloth:

Примечание: Поддержка зрения ещё не реализована в GGUF/llama.cpp для K2.5. Для мультимодальных функций используйте vLLM.

Настройка vLLM (продакшн — полная модель)

Для продакшн-сервинга с полной мультимодальной поддержкой:

Сервер на 8× H200 GPU

Запрос текстом

Запрос с изображением (мультимодальный)

Доступ к API (GPU не требуется)

Если самостоятельный хостинг — это излишне, используйте официальный API Moonshot:

Вызов инструментов

K2.5 превосходна в агентном использовании инструментов:

Быстрый старт с Docker

Советы для пользователей Clore.ai

  • Трейд‑офф: API против самостоятельного хостинга: Полный K2.5 требует 8× H200 примерно за ~$24–48/день. API Moonshot имеет бесплатный уровень или оплату за токен — используйте API для исследований, самостоятельный хостинг для длительных продакшн‑нагрузок.

  • Квантизовано для одного GPU: Unsloth GGUF Q2_K_XL (~375GB) может работать на RTX 4090 ($0.5–2/день) с 256GB RAM через выгрузку на CPU — ожидайте ~5–10 ток/с. Достаточно для личного использования и разработки.

  • Только текстовый K2 для бюджетных конфигураций: Если вам не нужно зрение, moonshotai/Kimi-K2-Instruct — это текстовый предшественник — тот же 1T MoE, но легче разворачивается (без накладных расходов на энкодер зрения).

  • Правильно выставляйте temperature: Используйте temperature=0.6 для режима мгновенного ответа, temperature=1.0 для режима размышления. Неправильная температура вызывает повторения или бессвязность.

  • Экспертный параллелизм для пропускной способности: В многоузловых конфигурациях используйте --enable-expert-parallel в vLLM для более высокой пропускной способности. Смотрите документацию vLLM для настройки EP.

Устранение неполадок

Проблема
Решение

OutOfMemoryError с полной моделью

Требуется 8× H200 (всего 1128GB). Используйте веса FP8, установите --gpu-memory-utilization 0.90.

GGUF-инференс очень медленный

Убедитесь, что достаточно ОЗУ для квантизованного размера. Q2_K_XL требует ~375GB суммарно ОЗУ+VRAM.

Зрение не работает в llama.cpp

Поддержка зрения для K2.5 GGUF пока недоступна — используйте vLLM для мультимодальности.

Повторяющийся вывод

Установите temperature=0.6 (мгновенный) или 1.0 (размышляющий). Добавьте min_p=0.01.

Скачивание модели занимает вечность

~630GB чекпоинт FP8. Используйте huggingface-cli download с --resume-download.

Вызовы инструментов не распарсены

Добавьте --tool-call-parser kimi_k2 --enable-auto-tool-choice к команде vLLM serve.

Дополнительное чтение

Последнее обновление

Это было полезно?