GLM-5

Setzen Sie GLM-5 (744B MoE) von Zhipu AI auf Clore.ai ein — API-Zugang und Self-Hosting mit vLLM

GLM-5, veröffentlicht im Februar 2026 von Zhipu AI (Z.AI), ist ein Mixture-of-Experts mit 744 Milliarden Parametern Sprachmodell, das pro Token nur 40B Parameter aktiviert. Es erreicht erstklassige Open-Source-Leistung bei Reasoning-, Coding- und agentischen Aufgaben — erzielt 77,8 % bei SWE-bench Verified und steht frontier-Modellen wie Claude Opus 4.5 und GPT-5.2 in Konkurrenz. Das Modell ist verfügbar unter MIT-Lizenz auf HuggingFace.

Hauptmerkmale

  • 744B gesamt / 40B aktiv — 256-Experten-MoE mit hocheffizientem Routing

  • Frontier-Leistung beim Programmieren — 77,8 % SWE-bench Verified, 73,3 % SWE-bench Multilingual

  • Tiefes Reasoning — 92,7 % bei AIME 2026, 96,9 % bei HMMT Nov 2025, integrierter Denkmodus

  • Agentische Fähigkeiten — native Tool-Aufrufe, Funktionsausführung und Langzeit-Aufgabenplanung

  • 200K+ Kontextfenster — verarbeitet massive Codebasen und lange Dokumente

  • MIT-Lizenz — vollständig offene Gewichte, kommerzielle Nutzung erlaubt

Anforderungen

GLM-5 selbst zu hosten ist ein ernsthaftes Unterfangen — der FP8-Checkpoint erfordert ~860GB VRAM.

Komponente
Minimum (FP8)
Empfohlen

GPU

8× H100 80GB

8× H200 141GB

VRAM

640GB

1.128GB

RAM

256GB

512GB

Festplatte

1,5TB NVMe

2TB NVMe

CUDA

12.0+

12.4+

Clore.ai-Empfehlung: Für die meisten Nutzer zugreifen Sie auf GLM-5 über die API (Z.AI, OpenRouter). Selbsthosting macht nur Sinn, wenn Sie 8× H100/H200 mieten können (~24–48 $/Tag auf Clore.ai).

API-Zugriff (empfohlen für die meisten Nutzer)

Die praktischste Möglichkeit, GLM-5 von einer Clore.ai-Maschine oder von überall zu nutzen:

Über die Z.AI-Plattform

Über OpenRouter

vLLM-Setup (Self-Hosting)

Für diejenigen mit Zugang zu hochklassigen Multi-GPU-Maschinen auf Clore.ai:

FP8 auf 8× H200 GPUs bereitstellen

Den Server abfragen

SGLang-Alternative

SGLang unterstützt GLM-5 ebenfalls und kann auf bestimmter Hardware bessere Leistung bieten:

Docker Quick Start

Beispiel für Tool-Aufrufe

GLM-5 hat native Tool-Calling-Unterstützung — ideal zum Aufbau agentischer Anwendungen:

Tipps für Clore.ai-Nutzer

  • API zuerst, Self-Host zweitens: GLM-5 erfordert 8× H200 (~24–48 $/Tag auf Clore.ai). Für gelegentliche Nutzung ist die Z.AI-API oder OpenRouter weitaus kosteneffizienter. Selbsthosting nur, wenn Sie dauerhaften Durchsatz oder Datenschutz benötigen.

  • Erwägen Sie stattdessen GLM-4.7: Wenn 8× H200 zu viel ist, läuft der Vorgänger GLM-4.7 (355B, 32B aktiv) auf 4× H200 oder 4× H100 (~12–24 $/Tag) und liefert weiterhin exzellente Leistung.

  • Verwenden Sie FP8-Gewichte: Verwenden Sie immer zai-org/GLM-5-FP8 — gleiche Qualität wie BF16, aber nahezu halbierter Speicherbedarf. Die BF16-Version erfordert 16× GPUs.

  • VRAM-Nutzung überwachen: watch nvidia-smi — Abfragen mit langem Kontext können den Speicher hochschnellen lassen. Setzen Sie --gpu-memory-utilization 0.85 um Spielraum zu lassen.

  • Kompromiss des Denkmodus: Der Denkmodus liefert bessere Ergebnisse für komplexe Aufgaben, verwendet jedoch mehr Tokens und Zeit. Deaktivieren Sie ihn für einfache Abfragen mit enable_thinking: false.

Fehlerbehebung

Problem
Lösung

OutOfMemoryError beim Start

Stellen Sie sicher, dass Sie 8× H200 (je 141GB) haben. FP8 benötigt insgesamt ~860GB VRAM.

Langsame Downloads (~800GB)

Verwenden Sie huggingface-cli download zai-org/GLM-5-FP8 mit --local-dir um fortzusetzen.

vLLM-Version stimmt nicht überein

GLM-5 erfordert vLLM Nightly. Installieren Sie über pip install -U vllm --pre.

Werkzeugaufrufe funktionieren nicht

Hinzufügen --tool-call-parser glm47 --enable-auto-tool-choice für serve-Befehl.

DeepGEMM-Fehler

Installieren Sie DeepGEMM für FP8: verwenden Sie das install_deepgemm.sh Skript aus dem vLLM-Repo.

Denkmodus liefert leere Ausgabe

Setze temperature=1.0 — der Denkmodus erfordert eine Temperatur ungleich Null.

Weiterführende Lektüre

Zuletzt aktualisiert

War das hilfreich?