Kimi K2.5

Setzen Sie Kimi K2.5 (1T MoE multimodal) von Moonshot AI auf Clore.ai GPUs ein

Kimi K2.5, veröffentlicht am 27. Januar 2026 von Moonshot AI, ist ein 1-Billionen-Parameter Mixture-of-Experts multimodales Modell mit 32B aktiven Parametern pro Token. Durch kontinuierliches Pretraining auf ~15 Billionen gemischter visueller und textlicher Tokens aufgebaut, basierend auf dem Kimi-K2-Base, versteht es nativ Text, Bilder und Video. K2.5 führt ein Agenten-Schwarm Technologie ein — koordiniert gleichzeitig bis zu 100 spezialisierte KI-Agenten — und erreicht Spitzenleistungen beim Programmieren (76,8% SWE-bench Verified), in der Vision und bei agentischen Aufgaben. Verfügbar unter einer Open-Weight-Lizenz auf HuggingFace.

Hauptmerkmale

  • 1T gesamt / 32B aktiv — 384-Experten MoE-Architektur mit MLA-Attention und SwiGLU

  • Natives Multimodal — vortrainiert auf Vision–Language-Tokens; versteht Bilder, Video und Text

  • Agenten-Schwarm — zerlegt komplexe Aufgaben in parallele Teilaufgaben mithilfe dynamisch erzeugter Agenten

  • 256K Kontextfenster — verarbeitet ganze Codebasen, lange Dokumente und Videoabschriften

  • Hybrides Reasoning — unterstützt sowohl Instant-Modus (schnell) als auch Thinking-Modus (tiefes Nachdenken)

  • Stark beim Programmieren — 76,8% SWE-bench Verified, 73,0% SWE-bench Multilingual

Anforderungen

Kimi K2.5 ist ein riesiges Modell — der FP8-Checkpoint ist ~630GB. Self-Hosting erfordert ernsthafte Hardware.

Komponente
Quantisiert (GGUF Q2)
FP8 Voll

GPU

1× RTX 4090 + 256GB RAM

8× H200 141GB

VRAM

24GB + CPU-Offload

1.128GB

RAM

256GB+

256GB

Festplatte

400GB SSD

700GB NVMe

CUDA

12.0+

12.0+

Clore.ai-Empfehlung: Für Serving in voller Präzision mieten Sie 8× H200 (~24–48$/Tag). Für quantisierte lokale Inferenz funktioniert eine einzelne H100 80GB oder sogar eine RTX 4090 mit umfangreichem CPU-Offload bei reduzierter Geschwindigkeit.

Schnellstart mit llama.cpp (quantisiert)

Der zugänglichste Weg, K2.5 lokal auszuführen — mit Unsloths GGUF-Quantisierungen:

Hinweis: Vision wird in GGUF/llama.cpp für K2.5 noch nicht unterstützt. Für multimodale Funktionen verwenden Sie vLLM.

vLLM-Einrichtung (Produktion — Volles Modell)

Für Production-Serving mit voller multimodaler Unterstützung:

Serviere auf 8× H200 GPUs

Abfrage per Text

Abfrage mit Bild (Multimodal)

API-Zugriff (Keine GPU erforderlich)

Wenn Self-Hosting übertrieben ist, verwenden Sie Moonshots offizielle API:

Tool-Aufrufe

K2.5 glänzt bei agentischem Tool-Einsatz:

Docker Quick Start

Tipps für Clore.ai-Nutzer

  • API- vs. Self-Hosting-Abwägung: Volles K2.5 benötigt 8× H200 für ~24–48$/Tag. Moonshots API bietet Free-Tier oder Pay-per-Token — verwende die API zur Erkundung, Self-Hosting für dauerhafte Produktionslasten.

  • Quantisiert auf einer einzelnen GPU: Das Unsloth GGUF Q2_K_XL (~375GB) kann auf einer RTX 4090 (0,5–2$/Tag) mit 256GB RAM via CPU-Offload laufen — erwarte ~5–10 tok/s. Gut genug für persönliche Nutzung und Entwicklung.

  • Text-only K2 für Budget-Setups: Wenn du keine Vision benötigst, moonshotai/Kimi-K2-Instruct ist der text-only Vorgänger — dieselbe 1T MoE, aber leichter bereitzustellen (kein Vision-Encoder-Overhead).

  • Temperatur korrekt einstellen: Verwende temperature=0.6 für den Instant-Modus, temperature=1.0 für den Thinking-Modus. Falsche Temperatur verursacht Wiederholungen oder Inkohärenz.

  • Expert-Parallelismus für Durchsatz: In Multi-Node-Setups verwende --enable-expert-parallel in vLLM für höheren Durchsatz. Siehe vLLM-Dokumentation für EP-Konfiguration.

Fehlerbehebung

Problem
Lösung

OutOfMemoryError mit vollem Modell

Benötigt 8× H200 (insgesamt 1128GB). Verwende FP8-Gewichte, setze --gpu-memory-utilization 0.90.

GGUF-Inferenz sehr langsam

Stelle genug RAM für die Quant-Größe sicher. Q2_K_XL benötigt ~375GB RAM+VRAM kombiniert.

Vision funktioniert nicht in llama.cpp

Vision-Unterstützung für K2.5 GGUF ist noch nicht verfügbar — verwende vLLM für multimodal.

Repetitive Ausgabe

Setze temperature=0.6 (instant) oder 1.0 (thinking). Füge hinzu min_p=0.01.

Modelldownload dauert ewig

~630GB FP8-Checkpoint. Verwende huggingface-cli download mit --resume-download.

Tool-Aufrufe werden nicht geparst

Hinzufügen --tool-call-parser kimi_k2 --enable-auto-tool-choice zum vLLM serve Befehl.

Weiterführende Lektüre

Zuletzt aktualisiert

War das hilfreich?