> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/kimi-k2.md).

# Kimi K2.5

Kimi K2.5, veröffentlicht am 27. Januar 2026 von Moonshot AI, ist ein **1-Billionen-Parameter Mixture-of-Experts multimodales Modell** mit 32B aktiven Parametern pro Token. Durch kontinuierliches Pretraining auf \~15 Billionen gemischter visueller und textlicher Tokens aufgebaut, basierend auf dem Kimi-K2-Base, versteht es nativ Text, Bilder und Video. K2.5 führt ein **Agenten-Schwarm** Technologie ein — koordiniert gleichzeitig bis zu 100 spezialisierte KI-Agenten — und erreicht Spitzenleistungen beim Programmieren (76,8% SWE-bench Verified), in der Vision und bei agentischen Aufgaben. Verfügbar unter einer **Open-Weight-Lizenz** auf HuggingFace.

## Hauptmerkmale

* **1T gesamt / 32B aktiv** — 384-Experten MoE-Architektur mit MLA-Attention und SwiGLU
* **Natives Multimodal** — vortrainiert auf Vision–Language-Tokens; versteht Bilder, Video und Text
* **Agenten-Schwarm** — zerlegt komplexe Aufgaben in parallele Teilaufgaben mithilfe dynamisch erzeugter Agenten
* **256K Kontextfenster** — verarbeitet ganze Codebasen, lange Dokumente und Videoabschriften
* **Hybrides Reasoning** — unterstützt sowohl Instant-Modus (schnell) als auch Thinking-Modus (tiefes Nachdenken)
* **Stark beim Programmieren** — 76,8% SWE-bench Verified, 73,0% SWE-bench Multilingual

## Anforderungen

Kimi K2.5 ist ein riesiges Modell — der FP8-Checkpoint ist \~630GB. Self-Hosting erfordert ernsthafte Hardware.

| Komponente | Quantisiert (GGUF Q2)   | FP8 Voll      |
| ---------- | ----------------------- | ------------- |
| GPU        | 1× RTX 4090 + 256GB RAM | 8× H200 141GB |
| VRAM       | 24GB + CPU-Offload      | 1.128GB       |
| RAM        | 256GB+                  | 256GB         |
| Festplatte | 400GB SSD               | 700GB NVMe    |
| CUDA       | 12.0+                   | 12.0+         |

**Clore.ai-Empfehlung**: Für Serving in voller Präzision mieten Sie 8× H200 (\~24–48$/Tag). Für quantisierte lokale Inferenz funktioniert eine einzelne H100 80GB oder sogar eine RTX 4090 mit umfangreichem CPU-Offload bei reduzierter Geschwindigkeit.

## Schnellstart mit llama.cpp (quantisiert)

Der zugänglichste Weg, K2.5 lokal auszuführen — mit Unsloths GGUF-Quantisierungen:

```bash
# Klone und baue llama.cpp
git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp
cmake -B build -DGGML_CUDA=ON && cmake --build build --config Release -j

# Lade quantisiertes Modell herunter (Q2_K_XL — 375GB, gutes Qualitäts-/Größen-Verhältnis)
huggingface-cli download unsloth/Kimi-K2.5-GGUF \
  Kimi-K2.5-UD-Q2_K_XL-00001-of-00005.gguf \
  Kimi-K2.5-UD-Q2_K_XL-00002-of-00005.gguf \
  Kimi-K2.5-UD-Q2_K_XL-00003-of-00005.gguf \
  Kimi-K2.5-UD-Q2_K_XL-00004-of-00005.gguf \
  Kimi-K2.5-UD-Q2_K_XL-00005-of-00005.gguf \
  --local-dir ./models

# Führe Inferenz aus (passe --n-gpu-layers an deinen VRAM an)
./build/bin/llama-server \
  -m ./models/Kimi-K2.5-UD-Q2_K_XL-00001-of-00005.gguf \
  --n-gpu-layers 10 \
  --threads 32 \
  --ctx-size 16384 \
  --host 0.0.0.0 --port 8080
```

> **Hinweis**: Vision wird in GGUF/llama.cpp für K2.5 noch nicht unterstützt. Für multimodale Funktionen verwenden Sie vLLM.

## vLLM-Einrichtung (Produktion — Volles Modell)

Für Production-Serving mit voller multimodaler Unterstützung:

```bash
# Installiere vLLM Nightly (K2.5 benötigt die neueste Version)
pip install -U vllm --pre \
  --extra-index-url https://wheels.vllm.ai/nightly/cu129 \
  --extra-index-url https://download.pytorch.org/whl/cu129 \
  --index-strategy unsafe-best-match
```

### Serviere auf 8× H200 GPUs

```bash
vllm serve moonshotai/Kimi-K2.5 \
  -tp 8 \
  --mm-encoder-tp-mode data \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2 \
  --trust-remote-code \
  --gpu-memory-utilization 0.90
```

### Abfrage per Text

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.5",
    messages=[
        {"role": "system", "content": "Du bist Kimi, ein von Moonshot AI erstellter KI-Assistent."},
        {"role": "user", "content": "Schreibe einen FastAPI-Service mit WebSocket-Unterstützung für Echtzeit-Chat"}
    ],
    temperature=0.6,
    max_tokens=4096
)
print(response.choices[0].message.content)
```

### Abfrage mit Bild (Multimodal)

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY", timeout=3600)

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.5",
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {"url": "https://example.com/diagram.png"}
            },
            {
                "type": "text",
                "text": "Beschreibe dieses Diagramm im Detail und extrahiere allen Text."
            }
        ]
    }],
    max_tokens=2048
)
print(response.choices[0].message.content)
```

## API-Zugriff (Keine GPU erforderlich)

Wenn Self-Hosting übertrieben ist, verwenden Sie Moonshots offizielle API:

```python
from openai import OpenAI

# Moonshot Platform — OpenAI-kompatible API
client = OpenAI(
    api_key="dein-moonshot-api-key",
    base_url="https://api.moonshot.ai/v1"
)

response = client.chat.completions.create(
    model="kimi-k2.5",
    messages=[
        {"role": "user", "content": "Erkläre die Agenten-Schwarm-Architektur in Kimi K2.5"}
    ],
    temperature=0.6,
    max_tokens=2048
)
print(response.choices[0].message.content)
```

## Tool-Aufrufe

K2.5 glänzt bei agentischem Tool-Einsatz:

```python
import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

tools = [{
    "type": "function",
    "function": {
        "name": "search_code",
        "description": "Durchsuche eine Codebasis nach relevanten Dateien und Funktionen",
        "parameters": {
            "type": "object",
            "required": ["query"],
            "properties": {
                "query": {"type": "string", "description": "Suchanfrage"}
            }
        }
    }
}]

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.5",
    messages=[{"role": "user", "content": "Finde allen authentifizierungsbezogenen Code im Projekt"}],
    tools=tools,
    tool_choice="auto",
    temperature=0.6
)

for tool_call in response.choices[0].message.tool_calls:
    print(f"Function: {tool_call.function.name}")
    print(f"Args: {json.loads(tool_call.function.arguments)}")
```

## Docker Quick Start

```bash
# Verwendung von vLLM Docker mit 8 GPUs
docker run --gpus all -p 8000:8000 \
  --ipc=host \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  vllm/vllm-openai:latest \
  --model moonshotai/Kimi-K2.5 \
  --tensor-parallel-size 8 \
  --mm-encoder-tp-mode data \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2 \
  --trust-remote-code
```

## Tipps für Clore.ai-Nutzer

* **API- vs. Self-Hosting-Abwägung**: Volles K2.5 benötigt 8× H200 für \~24–48$/Tag. Moonshots API bietet Free-Tier oder Pay-per-Token — verwende die API zur Erkundung, Self-Hosting für dauerhafte Produktionslasten.
* **Quantisiert auf einer einzelnen GPU**: Das Unsloth GGUF Q2\_K\_XL (\~375GB) kann auf einer RTX 4090 (0,5–2$/Tag) mit 256GB RAM via CPU-Offload laufen — erwarte \~5–10 tok/s. Gut genug für persönliche Nutzung und Entwicklung.
* **Text-only K2 für Budget-Setups**: Wenn du keine Vision benötigst, `moonshotai/Kimi-K2-Instruct` ist der text-only Vorgänger — dieselbe 1T MoE, aber leichter bereitzustellen (kein Vision-Encoder-Overhead).
* **Temperatur korrekt einstellen**: Verwende `temperature=0.6` für den Instant-Modus, `temperature=1.0` für den Thinking-Modus. Falsche Temperatur verursacht Wiederholungen oder Inkohärenz.
* **Expert-Parallelismus für Durchsatz**: In Multi-Node-Setups verwende `--enable-expert-parallel` in vLLM für höheren Durchsatz. Siehe vLLM-Dokumentation für EP-Konfiguration.

## Fehlerbehebung

| Problem                                | Lösung                                                                                             |
| -------------------------------------- | -------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` mit vollem Modell   | Benötigt 8× H200 (insgesamt 1128GB). Verwende FP8-Gewichte, setze `--gpu-memory-utilization 0.90`. |
| GGUF-Inferenz sehr langsam             | Stelle genug RAM für die Quant-Größe sicher. Q2\_K\_XL benötigt \~375GB RAM+VRAM kombiniert.       |
| Vision funktioniert nicht in llama.cpp | Vision-Unterstützung für K2.5 GGUF ist noch nicht verfügbar — verwende vLLM für multimodal.        |
| Repetitive Ausgabe                     | Setze `temperature=0.6` (instant) oder `1.0` (thinking). Füge hinzu `min_p=0.01`.                  |
| Modelldownload dauert ewig             | \~630GB FP8-Checkpoint. Verwende `huggingface-cli download` mit `--resume-download`.               |
| Tool-Aufrufe werden nicht geparst      | Hinzufügen `--tool-call-parser kimi_k2 --enable-auto-tool-choice` zum vLLM serve Befehl.           |

## Weiterführende Lektüre

* [Kimi K2.5 auf HuggingFace](https://huggingface.co/moonshotai/Kimi-K2.5)
* [Kimi K2.5 Tech-Blog](https://www.kimi.com/blog/kimi-k2-5.html)
* [Kimi K2.5 Paper](https://arxiv.org/abs/2602.02276)
* [vLLM K2.5 Rezept](https://docs.vllm.ai/projects/recipes/en/latest/moonshotai/Kimi-K2.5.html)
* [Unsloth GGUF-Quantisierungen](https://huggingface.co/unsloth/Kimi-K2.5-GGUF)
* [Moonshot API Plattform](https://platform.moonshot.ai)
* [Kimi K2 GitHub](https://github.com/MoonshotAI/Kimi-K2)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/kimi-k2.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
