Kimi K2.5

Déployez Kimi K2.5 (MoE multimodal 1T) par Moonshot AI sur les GPU Clore.ai

Kimi K2.5, publié le 27 janvier 2026 par Moonshot AI, est un modèle multimodal Mixture-of-Experts d'un trillion de paramètres avec 32 milliards de paramètres actifs par token. Construit via un pré-entraînement continu sur ~15 trillions de tokens mixtes visuels et textuels par-dessus le Kimi-K2-Base, il comprend nativement le texte, les images et la vidéo. K2.5 introduit Agent Swarm technologie — coordonnant jusqu'à 100 agents d'IA spécialisés simultanément — et atteint des performances de pointe en codage (76,8 % SWE-bench Verified), vision et tâches agentiques. Disponible sous une licence à poids ouvert sur HuggingFace.

Principales caractéristiques

  • 1T total / 32B actifs — architecture MoE à 384 experts avec attention MLA et SwiGLU

  • Multimodal natif — pré-entraîné sur des tokens vision–langage ; comprend les images, la vidéo et le texte

  • Agent Swarm — décompose les tâches complexes en sous-tâches parallèles via des agents générés dynamiquement

  • fenêtre de contexte 256K — traite des bases de code entières, de longs documents et des transcriptions vidéo

  • Raisonnement hybride — prend en charge à la fois le mode instantané (rapide) et le mode réflexion (raisonnement profond)

  • Excellente performance en codage — 76,8 % SWE-bench Verified, 73,0 % SWE-bench Multilingue

Exigences

Kimi K2.5 est un modèle massif — le point de contrôle FP8 fait ~630 Go. L'hébergement autonome nécessite du matériel sérieux.

Composant
Quantifié (GGUF Q2)
FP8 complet

GPU

1× RTX 4090 + 256 Go de RAM

8× H200 141 Go

VRAM

24 Go + déchargement CPU

1 128 Go

RAM

256 Go+

256GB

Disque

SSD 400 Go

NVMe 700 Go

CUDA

12.0+

12.0+

Recommandation Clore.ai: Pour un service en précision complète, louez 8× H200 (~24–48 $/jour). Pour l'inférence locale quantifiée, un seul H100 80 Go ou même une RTX 4090 avec un fort déchargement CPU fonctionne à vitesse réduite.

Démarrage rapide avec llama.cpp (Quantifié)

Le moyen le plus accessible d'exécuter K2.5 localement — en utilisant les quantifications GGUF d'Unsloth :

Remarque: La vision n'est pas encore prise en charge dans GGUF/llama.cpp pour K2.5. Pour les fonctionnalités multimodales, utilisez vLLM.

Configuration vLLM (Production — Modèle complet)

Pour le service en production avec prise en charge multimodale complète :

Servir sur 8× GPU H200

Interroger avec du texte

Interroger avec une image (Multimodal)

Accès API (Aucun GPU requis)

Si l'auto-hébergement est excessif, utilisez l'API officielle de Moonshot :

Appel d'outils

K2.5 excelle dans l'utilisation agentique d'outils :

Démarrage rapide Docker

Conseils pour les utilisateurs de Clore.ai

  • Choix entre API et auto-hébergement: Le K2.5 complet nécessite 8× H200 à ~24–48 $/jour. L'API de Moonshot propose un niveau gratuit ou pay-per-token — utilisez l'API pour l'exploration, auto-hébergez pour des charges de production soutenues.

  • Quantifié sur un seul GPU: L'Unsloth GGUF Q2_K_XL (~375 Go) peut fonctionner sur une RTX 4090 (0,5–2 $/jour) avec 256 Go de RAM via déchargement CPU — attendez-vous à ~5–10 tok/s. Suffisant pour un usage personnel et le développement.

  • K2 uniquement texte pour configurations économiques: Si vous n'avez pas besoin de la vision, moonshotai/Kimi-K2-Instruct est le prédécesseur uniquement texte — même MoE à 1T mais plus léger à déployer (sans surcharge d'encodeur vision).

  • Configurer correctement la température: Utilisez temperature=0.6 pour le mode instantané, temperature=1.0 pour le mode réflexion. Une mauvaise température cause répétition ou incohérence.

  • Parallelisme d'experts pour le débit: Sur des configurations multi-nœuds, utilisez --enable-expert-parallel dans vLLM pour un débit plus élevé. Consultez la documentation vLLM pour la configuration EP.

Dépannage

Problème
Solution

OutOfMemoryError avec le modèle complet

Nécessite 8× H200 (1 128 Go au total). Utilisez des poids FP8, définissez --gpu-memory-utilization 0.90.

Inference GGUF très lente

Assurez-vous d'avoir suffisamment de RAM pour la taille quantifiée. Q2_K_XL nécessite ~375 Go RAM+VRAM combinés.

La vision ne fonctionne pas dans llama.cpp

Le support vision pour K2.5 GGUF n'est pas encore disponible — utilisez vLLM pour le multimodal.

Sortie répétitive

Définir temperature=0.6 (instantané) ou 1.0 (réflexion). Ajoutez min_p=0.01.

Le téléchargement du modèle prend une éternité

~630 Go point de contrôle FP8. Utilisez huggingface-cli download avec --resume-download.

Appels d'outils non analysés

Ajoutez --tool-call-parser kimi_k2 --enable-auto-tool-choice au commande vLLM serve.

Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?