Kimi K2.5

Despliega Kimi K2.5 (1T MoE multimodal) de Moonshot AI en GPUs de Clore.ai

Kimi K2.5, lanzado el 27 de enero de 2026 por Moonshot AI, es un modelo multimodal Mixture-of-Experts de 1 billón de parámetros con 32B de parámetros activos por token. Construido mediante preentrenamiento continuo en ~15 billones de tokens mixtos visuales y de texto sobre la base Kimi-K2-Base, entiende de forma nativa texto, imágenes y vídeo. K2.5 introduce Agent Swarm tecnología — coordinando hasta 100 agentes de IA especializados simultáneamente — y alcanza rendimiento de vanguardia en programación (76.8% SWE-bench Verified), visión y tareas agentivas. Disponible bajo una licencia de pesos abiertos en HuggingFace.

Características clave

  • 1T total / 32B activos — arquitectura MoE de 384 expertos con atención MLA y SwiGLU

  • Multimodal nativo — preentrenado en tokens visión–lenguaje; entiende imágenes, vídeo y texto

  • Agent Swarm — descompone tareas complejas en sub-tareas paralelas mediante agentes generados dinámicamente

  • Ventana de contexto de 256K — procesa bases de código completas, documentos largos y transcripciones de vídeo

  • Razonamiento híbrido — soporta tanto modo instantáneo (rápido) como modo de pensamiento (razonamiento profundo)

  • Fuerte en programación — 76.8% SWE-bench Verified, 73.0% SWE-bench Multilingual

Requisitos

Kimi K2.5 es un modelo masivo — el checkpoint FP8 es ~630GB. Alojarlo uno mismo requiere hardware serio.

Componente
Cuantizado (GGUF Q2)
FP8 Completo

GPU

1× RTX 4090 + 256GB RAM

8× H200 141GB

VRAM

24GB + descarga a CPU

1.128GB

RAM

256GB+

256GB

Disco

400GB SSD

700GB NVMe

CUDA

12.0+

12.0+

recomendación de Clore.ai: Para serving en precisión completa, alquila 8× H200 (~$24–48/día). Para inferencia local cuantizada, una sola H100 80GB o incluso una RTX 4090 + fuerte descarga a CPU funciona a velocidad reducida.

Inicio rápido con llama.cpp (Cuantizado)

La forma más accesible de ejecutar K2.5 localmente — usando las cuantizaciones GGUF de Unsloth:

Nota: La visión aún no es compatible en GGUF/llama.cpp para K2.5. Para funciones multimodales, usa vLLM.

Configuración vLLM (Producción — Modelo completo)

Para serving en producción con soporte multimodal completo:

Servir en 8× GPUs H200

Consultar con texto

Consultar con imagen (Multimodal)

Acceso a la API (No se necesita GPU)

Si alojarlo uno mismo es excesivo, usa la API oficial de Moonshot:

Llamada a herramientas

K2.5 sobresale en el uso agentivo de herramientas:

Inicio rápido con Docker

Consejos para usuarios de Clore.ai

  • Compensación API vs self-hosting: K2.5 completo necesita 8× H200 a ~$24–48/día. La API de Moonshot tiene nivel gratuito o pago por token — usa la API para exploración, aloja tú mismo para cargas sostenidas en producción.

  • Cuantizado en GPU única: El Unsloth GGUF Q2_K_XL (~375GB) puede ejecutarse en una RTX 4090 ($0.5–2/día) con 256GB de RAM vía descarga a CPU — espera ~5–10 tok/s. Suficiente para uso personal y desarrollo.

  • K2 solo texto para configuraciones económicas: Si no necesitas visión, moonshotai/Kimi-K2-Instruct es el predecesor solo de texto — mismo MoE de 1T pero más ligero de desplegar (sin sobrecarga del codificador de visión).

  • Ajusta la temperatura correctamente: Usa temperature=0.6 para modo instantáneo, temperature=1.0 para modo de pensamiento. Una temperatura incorrecta provoca repetición o incoherencia.

  • Paralelismo de expertos para rendimiento: En configuraciones multinodo, usa --enable-expert-parallel en vLLM para mayor rendimiento. Consulta la documentación de vLLM para la configuración de EP.

Solución de problemas

Problema
Solución

OutOfMemoryError con modelo completo

Necesita 8× H200 (1128GB en total). Usa pesos FP8, configura --gpu-memory-utilization 0.90.

GGUF inferencia muy lenta

Asegura suficiente RAM para el tamaño cuantizado. Q2_K_XL necesita ~375GB combinados de RAM+VRAM.

Visión no funciona en llama.cpp

El soporte de visión para K2.5 GGUF no está disponible aún — usa vLLM para multimodal.

Salida repetitiva

Establecer temperature=0.6 (instantáneo) o 1.0 (pensamiento). Añade min_p=0.01.

La descarga del modelo dura una eternidad

~630GB checkpoint FP8. Usa huggingface-cli download con --resume-download.

Llamadas a herramientas no parseadas

Agregar --tool-call-parser kimi_k2 --enable-auto-tool-choice al comando vLLM serve.

Lecturas adicionales

Última actualización

¿Te fue útil?