Kimi K2.5
Разверните Kimi K2.5 (1T MoE мультимодальная) от Moonshot AI на GPU Clore.ai
Kimi K2.5, выпущенная 27 января 2026 года компанией Moonshot AI, является мультимодельной моделью Mixture-of-Experts с 1 триллионом параметров с 32B активными параметрами на токен. Построенная посредством непрерывного предварительного обучения на ~15 триллионах смешанных визуальных и текстовых токенов поверх Kimi-K2-Base, она изначально понимает текст, изображения и видео. K2.5 внедряет технологию Agent Swarm — координацию до 100 специализированных агентов ИИ одновременно — и достигает передовых показателей в кодировании (76.8% SWE-bench Verified), в задачах зрения и агентных задачах. Доступна по лицензии с открытыми весами на HuggingFace.
Ключевые особенности
1T всего / 32B активных — архитектура MoE с 384 экспертами, MLA-вниманием и SwiGLU
Нативная мультимодальность — предварительно обучена на vision–language токенах; понимает изображения, видео и текст
технологию Agent Swarm — разлагает сложные задачи на параллельные подзадачи через динамически порождаемых агентов
Окно контекста 256K — обрабатывает целые кодовые базы, длинные документы и расшифровки видео
Гибридное рассуждение — поддерживает как режим мгновенного ответа (быстрый), так и режим размышления (глубокое рассуждение)
Сильные возможности в кодировании — 76.8% SWE-bench Verified, 73.0% SWE-bench Multilingual
Требования
Kimi K2.5 — массивная модель — чекпоинт FP8 занимает ~630 ГБ. Самостоятельный хостинг требует серьёзного железа.
GPU
1× RTX 4090 + 256GB RAM
8× H200 141GB
VRAM
24GB + выгрузка на CPU
1,128GB
ОЗУ
256GB+
256GB
Диск
400GB SSD
700GB NVMe
CUDA
12.0+
12.0+
Рекомендация Clore.ai: Для сервинга в полной точности арендуйте 8× H200 (~$24–48/день). Для квантизованного локального вывода достаточно одной H100 80GB или даже RTX 4090 + значительная выгрузка на CPU, но со сниженной скоростью.
Быстрый старт с llama.cpp (квантованная)
Самый доступный способ запустить K2.5 локально — используя GGUF-квантизации Unsloth:
Примечание: Поддержка зрения ещё не реализована в GGUF/llama.cpp для K2.5. Для мультимодальных функций используйте vLLM.
Настройка vLLM (продакшн — полная модель)
Для продакшн-сервинга с полной мультимодальной поддержкой:
Сервер на 8× H200 GPU
Запрос текстом
Запрос с изображением (мультимодальный)
Доступ к API (GPU не требуется)
Если самостоятельный хостинг — это излишне, используйте официальный API Moonshot:
Вызов инструментов
K2.5 превосходна в агентном использовании инструментов:
Быстрый старт с Docker
Советы для пользователей Clore.ai
Трейд‑офф: API против самостоятельного хостинга: Полный K2.5 требует 8× H200 примерно за ~$24–48/день. API Moonshot имеет бесплатный уровень или оплату за токен — используйте API для исследований, самостоятельный хостинг для длительных продакшн‑нагрузок.
Квантизовано для одного GPU: Unsloth GGUF Q2_K_XL (~375GB) может работать на RTX 4090 ($0.5–2/день) с 256GB RAM через выгрузку на CPU — ожидайте ~5–10 ток/с. Достаточно для личного использования и разработки.
Только текстовый K2 для бюджетных конфигураций: Если вам не нужно зрение,
moonshotai/Kimi-K2-Instruct— это текстовый предшественник — тот же 1T MoE, но легче разворачивается (без накладных расходов на энкодер зрения).Правильно выставляйте temperature: Используйте
temperature=0.6для режима мгновенного ответа,temperature=1.0для режима размышления. Неправильная температура вызывает повторения или бессвязность.Экспертный параллелизм для пропускной способности: В многоузловых конфигурациях используйте
--enable-expert-parallelв vLLM для более высокой пропускной способности. Смотрите документацию vLLM для настройки EP.
Устранение неполадок
OutOfMemoryError с полной моделью
Требуется 8× H200 (всего 1128GB). Используйте веса FP8, установите --gpu-memory-utilization 0.90.
GGUF-инференс очень медленный
Убедитесь, что достаточно ОЗУ для квантизованного размера. Q2_K_XL требует ~375GB суммарно ОЗУ+VRAM.
Зрение не работает в llama.cpp
Поддержка зрения для K2.5 GGUF пока недоступна — используйте vLLM для мультимодальности.
Повторяющийся вывод
Установите temperature=0.6 (мгновенный) или 1.0 (размышляющий). Добавьте min_p=0.01.
Скачивание модели занимает вечность
~630GB чекпоинт FP8. Используйте huggingface-cli download с --resume-download.
Вызовы инструментов не распарсены
Добавьте --tool-call-parser kimi_k2 --enable-auto-tool-choice к команде vLLM serve.
Дополнительное чтение
Последнее обновление
Это было полезно?