# GLM-5.1 (744B MoE, #1 SWE-Bench Pro)

{% hint style="info" %}
**Статус (апрель 2026):** GLM-5.1 был выпущен **7 апреля 2026 года** компанией Z.ai (ранее Zhipu AI) как постепенное, но серьёзное обновление [GLM-5](/guides/guides_v2-ru/yazykovye-modeli/glm5.md). Это первая open-weight модель, занявшая первое место в **SWE-Bench Pro (58,4%)**, опередив GPT-5.4 (57,7) и Claude Opus 4.6 (57,3) согласно опубликованным поставщиком данным. Веса доступны по адресу [huggingface.co/zai-org/GLM-5.1](https://huggingface.co/zai-org/GLM-5.1) под **лицензией MIT**.
{% endhint %}

GLM-5.1 — это **744-миллиардная модель Mixture-of-Experts** языка, которая активирует только **\~40 млрд параметров на токен**. По сравнению со своим предшественником [GLM-5](/guides/guides_v2-ru/yazykovye-modeli/glm5.md), релиз 5.1 сохраняет ту же MoE-структуру, но поставляется с улучшенной маршрутизацией экспертов, **контекстным окном на 200 тыс. токенов**, **максимальным выводом на 131 тыс. токенов**, а также обучением, сфокусированным на **долгосрочном агентном кодинге** — модель явно настроена выдерживать тысячи вызовов инструментов и сотни раундов рефакторинга без потери фокуса.

Для пользователей Clore.ai интереснее всего число **40 млрд активных** : вам не нужен полный кластер 8×H200, чтобы обслуживать её. Тензорно-параллельная конфигурация на **2×H100 80 ГБ** (FP8) или **4×A100 80 ГБ** (BF16 с шардингом) достаточна для практической производительности — это делает кодинг уровня frontier доступным примерно за $12–24/день на маркетплейсе.

### Ключевые характеристики

| Свойство                   | Значение                                            |
| -------------------------- | --------------------------------------------------- |
| Всего параметров           | 744B (MoE)                                          |
| Активных параметров        | \~40B на один проход                                |
| Контекстное окно           | 200 000 токенов                                     |
| Максимальный вывод         | 131 072 токена                                      |
| Лицензия                   | MIT                                                 |
| Дата выпуска               | 7 апреля 2026 года                                  |
| Организация                | Z.ai (zai-org на HuggingFace)                       |
| Основной стек инструментов | vLLM, SGLang, llama.cpp (GGUF), xLLM, KTransformers |

### Почему GLM-5.1?

* **#1 в SWE-Bench Pro** — 58,4% по заявлению поставщика, опережает GPT-5.4 и Claude Opus 4.6
* **Долгие агентные сценарии** — сохраняет оптимизацию на протяжении сотен раундов и тысяч вызовов инструментов
* **контекст 200K** — достаточно для целой кодовой базы среднего размера плюс набора тестов
* **40B active MoE** — вы платите за инференс как за плотную модель на 40B, а не на 744B
* **лицензией MIT** — полностью открытые веса, без ограничений на коммерческое использование или дообучение
* **Открытый стек обучения** — Z.ai опубликовала модель, по сообщениям, обученную без использования дата-центровых GPU Nvidia

***

## Требования

{% hint style="warning" %}
**Всё ещё большая модель.** Хотя "40B active" звучит обнадёживающе, все 744B весов должны быть загружены в VRAM (или выгружены). Веса FP8 занимают около 860 ГБ; BF16 — около 1,5 ТБ. Планируйте соответствующим образом.
{% endhint %}

| Компонент | Минимум (Q4 GGUF, выгрузка)   | Рекомендуется (FP8)              | Полный BF16    |
| --------- | ----------------------------- | -------------------------------- | -------------- |
| VRAM GPU  | \~80 ГБ (Q4 + выгрузка в ОЗУ) | 2× H100 80 ГБ активных, 8× всего | 8× H200 141 ГБ |
| ОЗУ       | 256 ГБ                        | 256 ГБ                           | 512 ГБ         |
| Диск      | 500 ГБ NVMe                   | 1 ТБ NVMe                        | 2 ТБ NVMe      |
| CUDA      | 12.4+                         | 12.4+                            | 12.6+          |

**Выбор Clore.ai:** Для большинства команд оптимальный вариант — 2× H100 80 ГБ с FP8-чекпоинтом и агрессивной выгрузкой (\~$12–16/день). Если вам нужна полная пропускная способность BF16, переходите на 8× H200 или используйте API Z.ai для редких запросов.

***

## Вариант A — Ollama / GGUF (квантованная, сборки сообщества)

{% hint style="warning" %}
**Внимание:** Пользовательские GGUF-кванты обычно появляются через 1–2 недели после релиза Z.ai. Если `ollama pull` не срабатывает, проверьте [huggingface.co/models?search=glm-5.1+gguf](https://huggingface.co/models?search=glm-5.1+gguf) и укажите llama.cpp файл напрямую.
{% endhint %}

```bash
# Когда будет доступна сборка Q4_K_M
docker exec ollama ollama pull glm-5.1:q4_K_M
docker exec ollama ollama run glm-5.1:q4_K_M

# Или напрямую с llama.cpp на GGUF-файле
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/glm-5.1-q4_k_m.gguf \
  --n-gpu-layers 80 --ctx-size 32768 \
  --port 8080 --host 0.0.0.0
```

***

## Вариант B — vLLM (production API, рекомендуется)

vLLM — приоритетная цель обслуживания для Z.ai. FP8-чекпоинт (`zai-org/GLM-5.1-FP8`) — именно то, что вам нужно: то же качество, что и BF16, примерно вдвое меньше памяти.

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model zai-org/GLM-5.1-FP8
      --tensor-parallel-size 8
      --max-model-len 65536
      --gpu-memory-utilization 0.88
      --tool-call-parser glm47
      --reasoning-parser glm45
      --enable-auto-tool-choice
      --served-model-name glm-5.1
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Проверить API
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.1",
    "messages": [
      {"role": "system", "content": "Вы — старший инженер-программист."},
      {"role": "user", "content": "Рефакторни этот Go-обработчик, чтобы правильно использовать context.Context, и добавь повторные попытки."}
    ],
    "max_tokens": 4096,
    "temperature": 1.0
  }'
```

{% hint style="info" %}
Используйте `--tensor-parallel-size 2` на 2× H100, если у вас ограничено число GPU, но рассчитывайте на более медленный prefill при контекстах 200K. `--enable-chunked-prefill` очень помогает.
{% endhint %}

***

## Вариант C — SGLang (альтернатива, часто быстрее на Hopper)

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \
  --model-path zai-org/GLM-5.1-FP8 \
  --tp-size 8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.88 \
  --context-length 65536 \
  --served-model-name glm-5.1
```

Спекулятивное декодирование EAGLE в SGLang обычно даёт прирост пропускной способности в 1,5–2× на длинных кодовых завершениях.

***

## Рекомендации по GPU для Clore.ai

| Конфигурация   | VRAM     | Ожидаемая производительность                     | Стоимость на Clore.ai |
| -------------- | -------- | ------------------------------------------------ | --------------------- |
| 2× H100 80 ГБ  | 160 ГБ   | FP8 с выгрузкой, \~15–25 ток/с                   | \~$12–16/день         |
| 4× A100 80 ГБ  | 320 ГБ   | BF16 с шардингом, \~20–30 ток/с                  | \~$15–22/день         |
| 8× H100 80 ГБ  | 640 ГБ   | полный FP8, \~60+ ток/с                          | \~$40–55/день         |
| 8× H200 141 ГБ | 1 128 ГБ | полный BF16, максимальная пропускная способность | \~$70+/день           |

{% hint style="success" %}
**Лучшее соотношение цены и качества:** 2× H100 80 ГБ с FP8-чекпоинтом. Вы получаете производительность кодинга уровня frontier примерно по цене подписки на Claude Opus — и веса остаются на вашей машине.
{% endhint %}

***

## Сценарии использования

* **Автономные SWE-агенты** — GLM-5.1 явно обучалась для долгих циклов вызова инструментов; объедините её с чем-то вроде SWE-agent или OpenHands
* **Понимание кодовой базы** — поместите в контекст 100K+ токенов Go/Rust/Python и попросите архитектурный обзор
* **RAG с длинным контекстом** — 200K ctx позволяют за один раз обработать всю продуктовую документацию + тикеты поддержки
* **Пайплайны рефакторинга** — устойчивая корректность на протяжении сотен правок файлов
* **Оркестрация agent-of-agents** — используйте GLM-5.1 как планировщик, а более маленькие модели (Qwen3.5-35B, GLM-4.7) как исполнителей

***

## Бенчмарки

{% hint style="warning" %}
**Заявлено поставщиком — проверяйте независимо.** Нижеприведённые числа взяты из анонса Z.ai от 7 апреля 2026 года. Независимые воспроизведения на SWE-Bench Pro всё ещё поступают.
{% endhint %}

| Бенчмарк           | GLM-5.1   | GPT-5.4 | Claude Opus 4.6 | GLM-5 |
| ------------------ | --------- | ------- | --------------- | ----- |
| SWE-Bench Pro      | **58.4%** | 57.7%   | 57.3%           | \~52% |
| SWE-Bench Verified | \~79%     | \~78%   | \~80%           | 77.8% |
| HumanEval          | \~94%     | \~95%   | \~94%           | \~93% |
| LiveCodeBench      | \~72%     | \~73%   | \~70%           | \~68% |

***

## Устранение неполадок

| Проблема                            | Решение                                                                                                                   |
| ----------------------------------- | ------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` при загрузке     | FP8-чекпоинту требуется около 860 ГБ общей VRAM. Используйте 8× H100/H200 или перейдите на GGUF Q4 с выгрузкой в ОЗУ.     |
| Медленная загрузка с HuggingFace    | Используйте `huggingface-cli download zai-org/GLM-5.1-FP8 --local-dir ./weights --resume-download`. Ожидайте 800 ГБ+.     |
| Вызовы инструментов молча пропадают | Убедитесь, `--tool-call-parser glm47` и `--enable-auto-tool-choice` что оба параметра заданы в vLLM.                      |
| Режим thinking пустой               | Требуется `temperature=1.0` — сэмплирование при нулевой температуре ломает цепочку рассуждений.                           |
| vLLM отвергает конфигурацию         | GLM-5.1 требует vLLM ≥ 0.7.x (релиз апреля 2026). Используйте `pip install -U vllm --pre` если у вас более старая версия. |
| 200K context вызывает OOM           | Начните с `--max-model-len 65536` и добавьте `--enable-chunked-prefill`; увеличьте после стабилизации.                    |

***

## Следующие шаги

* **Предшественник:** [GLM-5](/guides/guides_v2-ru/yazykovye-modeli/glm5.md) — та же форма MoE, но немного меньше ориентирован на кодинг
* **Более дешёвая альтернатива:** [Qwen3.5](/guides/guides_v2-ru/yazykovye-modeli/qwen35.md) — плотная модель на 35B помещается на одной RTX 4090
* **Альтернатива для сверхбольшого контекста:** [DeepSeek V4](/guides/guides_v2-ru/yazykovye-modeli/deepseek-v4.md) — 1M ctx, мультимодальная, \~1T параметров
* **Маркетплейс Clore.ai:** [clore.ai/marketplace](https://clore.ai/marketplace) — аренда H100/H200/A100 от $0.50/день

### Ссылки

* [GLM-5.1 на HuggingFace](https://huggingface.co/zai-org/GLM-5.1)
* [Блог Z.ai — анонс GLM-5.1](https://z.ai/blog/glm-5.1)
* [Платформа Z.ai (hosted API)](https://chat.z.ai)
* [Документация vLLM](https://docs.vllm.ai)
* [Репозиторий SGLang](https://github.com/sgl-project/sglang)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/glm-5-1.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
