# GLM-5.1 (744B MoE, #1 SWE-Bench Pro)

{% hint style="info" %}
**Status (April 2026):** GLM-5.1 wurde veröffentlicht am **7. April 2026** von Z.ai (ehemals Zhipu AI) als schrittweises, aber bedeutendes Upgrade zu [GLM-5](/guides/guides_v2-de/sprachmodelle/glm5.md). Es ist das erste Modell mit offenen Gewichten, das an die Spitze von **SWE-Bench Pro (58,4 %)**&#x67;elangt und damit laut vom Anbieter veröffentlichten Zahlen GPT-5.4 (57,7) und Claude Opus 4.6 (57,3) knapp übertrifft. Die Gewichte sind verfügbar unter [huggingface.co/zai-org/GLM-5.1](https://huggingface.co/zai-org/GLM-5.1) unter der **MIT-Lizenz**.
{% endhint %}

GLM-5.1 ist ein **744-Milliarden-Parameter-Mixture-of-Experts-** Sprachmodell, das nur **\~40 Mrd. Parameter pro Token**aktiviert. Im Vergleich zu seinem Vorgänger [GLM-5](/guides/guides_v2-de/sprachmodelle/glm5.md)behält die 5.1-Version dieselbe MoE-Struktur bei, liefert aber verfeinerte Experten-Routing-Verfahren, ein **Kontextfenster mit 200K Tokens**eine **maximale Ausgabe von 131K Tokens**und ein Training mit Fokus auf **langfristiges agentisches Programmieren** — das Modell ist ausdrücklich darauf abgestimmt, Tausende von Tool-Aufrufen und Hunderte von Refactoring-Runden ohne Drift durchzuhalten.

Für Clore.ai-Nutzer ist der interessante Punkt die **40B aktive** Zahl: Man braucht kein vollständiges 8×H200-Rack, um es bereitzustellen. Ein Tensor-Parallel-Setup über **2×H100 80GB** (FP8) oder **4×A100 80GB** (BF16 mit Sharding) reicht für praktikablen Durchsatz — und bringt Frontier-Klasse-Coding auf dem Marktplatz für etwa 12–24 $/Tag in Reichweite.

### Wichtige Spezifikationen

| Eigenschaft                   | Wert                                                |
| ----------------------------- | --------------------------------------------------- |
| Gesamtparameter               | 744B (MoE)                                          |
| Aktive Parameter              | \~40B pro Vorwärtsdurchlauf                         |
| Kontextfenster                | 200.000 Tokens                                      |
| Maximale Ausgabe              | 131.072 Tokens                                      |
| Lizenz                        | MIT                                                 |
| Veröffentlichungsdatum        | 7. April 2026                                       |
| Organisation                  | Z.ai (zai-org auf HuggingFace)                      |
| Primäre Tooling-Unterstützung | vLLM, SGLang, llama.cpp (GGUF), xLLM, KTransformers |

### Warum GLM-5.1?

* **#1 auf SWE-Bench Pro** — vom Anbieter behauptete 58,4 %, vor GPT-5.4 und Claude Opus 4.6
* **Langfristige Agenten** — hält Optimierung über Hunderte von Runden und Tausende von Tool-Aufrufen hinweg aufrecht
* **200K Kontext** — genug für eine komplette mittelgroße Codebasis plus Test-Suite
* **40B aktive MoE** — Sie zahlen die Inferenzkosten eines 40B dichten Modells, nicht die eines 744B-Modells
* **MIT-Lizenz** — vollständig offene Gewichte, keine Einschränkungen für kommerzielle Nutzung oder Fine-Tuning
* **Offener Trainings-Stack** — Z.ai hat das Modell veröffentlicht, angeblich ohne Nvidia-Rechenzentrums-GPUs trainiert

***

## Anforderungen

{% hint style="warning" %}
**Immer noch ein großes Modell.** Auch wenn „40B aktiv“ freundlich klingt, müssen die vollen 744B-Gewichte in den VRAM geladen werden (oder ausgelagert werden). FP8-Gewichte sind etwa 860 GB; BF16 etwa 1,5 TB. Planen Sie entsprechend.
{% endhint %}

| Komponente    | Minimum (Q4 GGUF, Auslagerung) | Empfohlen (FP8)                  | Vollständiges BF16 |
| ------------- | ------------------------------ | -------------------------------- | ------------------ |
| GPU VRAM      | \~80 GB (Q4 + RAM-Auslagerung) | 2× H100 80GB aktiv, 8× insgesamt | 8× H200 141GB      |
| RAM           | 256 GB                         | 256 GB                           | 512 GB             |
| Speicherplatz | 500 GB NVMe                    | 1 TB NVMe                        | 2 TB NVMe          |
| CUDA          | 12.4+                          | 12.4+                            | 12.6+              |

**Clore.ai-Empfehlung:** Für die meisten Teams ist 2× H100 80GB mit dem FP8-Checkpoint und aggressiver Auslagerung der Sweet Spot (ca. 12–16 $/Tag). Wenn Sie vollständigen BF16-Durchsatz benötigen, steigen Sie auf 8× H200 um oder nutzen Sie die Z.ai-API für gelegentliche Aufrufe.

***

## Option A — Ollama / GGUF (quantisiert, Community-Builds)

{% hint style="warning" %}
**Hinweis:** Community-GGUF-Quantisierungen erscheinen typischerweise 1–2 Wochen nach einer Z.ai-Veröffentlichung. Falls `ollama pull` fehlschlägt, prüfen Sie [huggingface.co/models?search=glm-5.1+gguf](https://huggingface.co/models?search=glm-5.1+gguf) und verweisen Sie llama.cpp direkt auf die Datei.
{% endhint %}

```bash
# Sobald ein Q4_K_M-Build verfügbar ist
docker exec ollama ollama pull glm-5.1:q4_K_M
docker exec ollama ollama run glm-5.1:q4_K_M

# Oder direkt mit llama.cpp auf einer GGUF-Datei
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/glm-5.1-q4_k_m.gguf \
  --n-gpu-layers 80 --ctx-size 32768 \
  --port 8080 --host 0.0.0.0
```

***

## Option B — vLLM (Produktions-API, empfohlen)

vLLM ist Z.ai's bevorzugtes Serving-Ziel. Der FP8-Checkpoint (`zai-org/GLM-5.1-FP8`) ist der richtige — gleiche Qualität wie BF16, ungefähr halb so viel Speicher.

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model zai-org/GLM-5.1-FP8
      --tensor-parallel-size 8
      --max-model-len 65536
      --gpu-memory-utilization 0.88
      --tool-call-parser glm47
      --reasoning-parser glm45
      --enable-auto-tool-choice
      --served-model-name glm-5.1
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# API testen
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.1",
    "messages": [
      {"role": "system", "content": "Du bist ein Senior-Softwareentwickler."},
      {"role": "user", "content": "Refaktoriere diesen Go-Handler, damit er context.Context korrekt verwendet, und füge Wiederholungsversuche hinzu."}
    ],
    "max_tokens": 4096,
    "temperature": 1.0
  }'
```

{% hint style="info" %}
Verwenden Sie `--tensor-parallel-size 2` auf 2× H100, wenn Sie bei der GPU-Anzahl knapp sind, aber planen Sie bei 200K-Kontexten eine langsamere Prefill-Phase ein. `--enable-chunked-prefill` hilft sehr.
{% endhint %}

***

## Option C — SGLang (Alternative, oft schneller auf Hopper)

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \
  --model-path zai-org/GLM-5.1-FP8 \
  --tp-size 8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.88 \
  --context-length 65536 \
  --served-model-name glm-5.1
```

Die EAGLE-Spekulative-Decodierung von SGLang bringt bei langen Code-Vervollständigungen typischerweise einen Durchsatzgewinn von 1,5–2×.

***

## Clore.ai GPU-Empfehlungen

| Setup         | VRAM     | Erwartete Leistung                     | Clore.ai-Kosten |
| ------------- | -------- | -------------------------------------- | --------------- |
| 2× H100 80GB  | 160 GB   | FP8 mit Auslagerung, ca. 15–25 Token/s | \~12–16 $/Tag   |
| 4× A100 80GB  | 320 GB   | BF16 geshardet, ca. 20–30 Token/s      | \~15–22 $/Tag   |
| 8× H100 80GB  | 640 GB   | FP8 vollständig, ca. 60+ Token/s       | \~40–55 $/Tag   |
| 8× H200 141GB | 1.128 GB | BF16 vollständig, maximaler Durchsatz  | \~70+ $/Tag     |

{% hint style="success" %}
**Bestes Preis-Leistungs-Verhältnis:** 2× H100 80GB mit dem FP8-Checkpoint. Sie erhalten Frontier-Klasse-Coding-Leistung für ungefähr den Preis eines Claude-Opus-Abonnements — und die Gewichte bleiben auf Ihrer eigenen Maschine.
{% endhint %}

***

## Anwendungsfälle

* **Autonome SWE-Agenten** — GLM-5.1 wird ausdrücklich für lange Tool-Calling-Schleifen trainiert; kombinieren Sie es mit etwas wie SWE-agent oder OpenHands
* **Codebasis-Verständnis** — packen Sie 100K+ Tokens aus Go/Rust/Python in den Kontext und bitten Sie um Architektur-Reviews
* **Langkontext-RAG** — 200K ctx verarbeitet komplette Produktdokumente + Support-Tickets in einem Durchgang
* **Refactoring-Pipelines** — anhaltende Korrektheit über Hunderte von Dateiänderungen hinweg
* **Orchestrierung von Agenten für Agenten** — verwenden Sie GLM-5.1 als Planer und kleinere Modelle (Qwen3.5-35B, GLM-4.7) als Arbeiter

***

## Benchmarks

{% hint style="warning" %}
**Vom Anbieter behauptet — unabhängig überprüfen.** Die unten stehenden Zahlen stammen aus der Ankündigung von Z.ai vom 7. April 2026. Unabhängige Reproduktionen auf SWE-Bench Pro laufen noch ein.
{% endhint %}

| Benchmark          | GLM-5.1   | GPT-5.4 | Claude Opus 4.6 | GLM-5 |
| ------------------ | --------- | ------- | --------------- | ----- |
| SWE-Bench Pro      | **58.4%** | 57.7%   | 57.3%           | \~52% |
| SWE-Bench Verified | \~79%     | \~78%   | \~80%           | 77.8% |
| HumanEval          | \~94%     | \~95%   | \~94%           | \~93% |
| LiveCodeBench      | \~72%     | \~73%   | \~70%           | \~68% |

***

## Fehlerbehebung

| Problem                                       | Lösung                                                                                                                                   |
| --------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` beim Laden                 | Der FP8-Checkpoint benötigt insgesamt etwa 860 GB VRAM. Verwenden Sie 8× H100/H200 oder weichen Sie auf GGUF Q4 mit RAM-Auslagerung aus. |
| Langsamer HuggingFace-Download                | Verwenden Sie `huggingface-cli download zai-org/GLM-5.1-FP8 --local-dir ./weights --resume-download`. Rechnen Sie mit 800 GB+.           |
| Tool-Aufrufe werden stillschweigend verworfen | Stellen Sie sicher, `--tool-call-parser glm47` und `--enable-auto-tool-choice` sind beide in vLLM gesetzt.                               |
| Thinking-Modus leer                           | Erfordert `temperature=1.0` — Sampling mit Null-Temperatur bricht den Reasoning-Trace.                                                   |
| vLLM lehnt die Konfiguration ab               | GLM-5.1 benötigt vLLM ≥ 0.7.x (Release April 2026). Verwenden Sie `pip install -U vllm --pre` wenn Sie ältere Versionen nutzen.          |
| 200K-Kontext führt zu OOMs                    | Beginnen Sie mit `--max-model-len 65536` und fügen Sie `--enable-chunked-prefill`hinzu; erhöhen Sie den Wert erst, wenn es stabil läuft. |

***

## Nächste Schritte

* **Vorgänger:** [GLM-5](/guides/guides_v2-de/sprachmodelle/glm5.md) — gleiche MoE-Form, etwas weniger auf Coding fokussiert
* **Günstigere Alternative:** [Qwen3.5](/guides/guides_v2-de/sprachmodelle/qwen35.md) — 35B dense passt auf eine einzelne RTX 4090
* **Alternative mit massivem Kontext:** [DeepSeek V4](/guides/guides_v2-de/sprachmodelle/deepseek-v4.md) — 1M ctx, multimodal, \~1T Parameter
* **Clore.ai-Marktplatz:** [clore.ai/marketplace](https://clore.ai/marketplace) — H100/H200/A100 ab 0,50 $/Tag mieten

### Links

* [GLM-5.1 auf HuggingFace](https://huggingface.co/zai-org/GLM-5.1)
* [Z.ai Blog — GLM-5.1-Ankündigung](https://z.ai/blog/glm-5.1)
* [Z.ai-Plattform (gehostete API)](https://chat.z.ai)
* [vLLM-Dokumentation](https://docs.vllm.ai)
* [SGLang-Repo](https://github.com/sgl-project/sglang)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/glm-5-1.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
