Kimi K2.5
Setzen Sie Kimi K2.5 (1T MoE multimodal) von Moonshot AI auf Clore.ai GPUs ein
Kimi K2.5, veröffentlicht am 27. Januar 2026 von Moonshot AI, ist ein 1-Billionen-Parameter Mixture-of-Experts multimodales Modell mit 32B aktiven Parametern pro Token. Durch kontinuierliches Pretraining auf ~15 Billionen gemischter visueller und textlicher Tokens aufgebaut, basierend auf dem Kimi-K2-Base, versteht es nativ Text, Bilder und Video. K2.5 führt ein Agenten-Schwarm Technologie ein — koordiniert gleichzeitig bis zu 100 spezialisierte KI-Agenten — und erreicht Spitzenleistungen beim Programmieren (76,8% SWE-bench Verified), in der Vision und bei agentischen Aufgaben. Verfügbar unter einer Open-Weight-Lizenz auf HuggingFace.
Hauptmerkmale
1T gesamt / 32B aktiv — 384-Experten MoE-Architektur mit MLA-Attention und SwiGLU
Natives Multimodal — vortrainiert auf Vision–Language-Tokens; versteht Bilder, Video und Text
Agenten-Schwarm — zerlegt komplexe Aufgaben in parallele Teilaufgaben mithilfe dynamisch erzeugter Agenten
256K Kontextfenster — verarbeitet ganze Codebasen, lange Dokumente und Videoabschriften
Hybrides Reasoning — unterstützt sowohl Instant-Modus (schnell) als auch Thinking-Modus (tiefes Nachdenken)
Stark beim Programmieren — 76,8% SWE-bench Verified, 73,0% SWE-bench Multilingual
Anforderungen
Kimi K2.5 ist ein riesiges Modell — der FP8-Checkpoint ist ~630GB. Self-Hosting erfordert ernsthafte Hardware.
GPU
1× RTX 4090 + 256GB RAM
8× H200 141GB
VRAM
24GB + CPU-Offload
1.128GB
RAM
256GB+
256GB
Festplatte
400GB SSD
700GB NVMe
CUDA
12.0+
12.0+
Clore.ai-Empfehlung: Für Serving in voller Präzision mieten Sie 8× H200 (~24–48$/Tag). Für quantisierte lokale Inferenz funktioniert eine einzelne H100 80GB oder sogar eine RTX 4090 mit umfangreichem CPU-Offload bei reduzierter Geschwindigkeit.
Schnellstart mit llama.cpp (quantisiert)
Der zugänglichste Weg, K2.5 lokal auszuführen — mit Unsloths GGUF-Quantisierungen:
Hinweis: Vision wird in GGUF/llama.cpp für K2.5 noch nicht unterstützt. Für multimodale Funktionen verwenden Sie vLLM.
vLLM-Einrichtung (Produktion — Volles Modell)
Für Production-Serving mit voller multimodaler Unterstützung:
Serviere auf 8× H200 GPUs
Abfrage per Text
Abfrage mit Bild (Multimodal)
API-Zugriff (Keine GPU erforderlich)
Wenn Self-Hosting übertrieben ist, verwenden Sie Moonshots offizielle API:
Tool-Aufrufe
K2.5 glänzt bei agentischem Tool-Einsatz:
Docker Quick Start
Tipps für Clore.ai-Nutzer
API- vs. Self-Hosting-Abwägung: Volles K2.5 benötigt 8× H200 für ~24–48$/Tag. Moonshots API bietet Free-Tier oder Pay-per-Token — verwende die API zur Erkundung, Self-Hosting für dauerhafte Produktionslasten.
Quantisiert auf einer einzelnen GPU: Das Unsloth GGUF Q2_K_XL (~375GB) kann auf einer RTX 4090 (0,5–2$/Tag) mit 256GB RAM via CPU-Offload laufen — erwarte ~5–10 tok/s. Gut genug für persönliche Nutzung und Entwicklung.
Text-only K2 für Budget-Setups: Wenn du keine Vision benötigst,
moonshotai/Kimi-K2-Instructist der text-only Vorgänger — dieselbe 1T MoE, aber leichter bereitzustellen (kein Vision-Encoder-Overhead).Temperatur korrekt einstellen: Verwende
temperature=0.6für den Instant-Modus,temperature=1.0für den Thinking-Modus. Falsche Temperatur verursacht Wiederholungen oder Inkohärenz.Expert-Parallelismus für Durchsatz: In Multi-Node-Setups verwende
--enable-expert-parallelin vLLM für höheren Durchsatz. Siehe vLLM-Dokumentation für EP-Konfiguration.
Fehlerbehebung
OutOfMemoryError mit vollem Modell
Benötigt 8× H200 (insgesamt 1128GB). Verwende FP8-Gewichte, setze --gpu-memory-utilization 0.90.
GGUF-Inferenz sehr langsam
Stelle genug RAM für die Quant-Größe sicher. Q2_K_XL benötigt ~375GB RAM+VRAM kombiniert.
Vision funktioniert nicht in llama.cpp
Vision-Unterstützung für K2.5 GGUF ist noch nicht verfügbar — verwende vLLM für multimodal.
Repetitive Ausgabe
Setze temperature=0.6 (instant) oder 1.0 (thinking). Füge hinzu min_p=0.01.
Modelldownload dauert ewig
~630GB FP8-Checkpoint. Verwende huggingface-cli download mit --resume-download.
Tool-Aufrufe werden nicht geparst
Hinzufügen --tool-call-parser kimi_k2 --enable-auto-tool-choice zum vLLM serve Befehl.
Weiterführende Lektüre
Zuletzt aktualisiert
War das hilfreich?