> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/language-models/glm-5-1.md).

# GLM-5.1 (744B MoE, #1 SWE-Bench Pro)

{% hint style="info" %}
**स्थिति (अप्रैल 2026):** GLM-5.1 को जारी किया गया था **7 अप्रैल, 2026** Z.ai (पूर्व में Zhipu AI) द्वारा, के लिए एक क्रमिक लेकिन महत्वपूर्ण अपग्रेड के रूप में [GLM-5](/guides/guides_v2-hi/language-models/glm5.md)। यह शीर्ष पर पहुंचने वाला पहला ओपन-वेट मॉडल है **SWE-Bench Pro (58.4%)**&#x915;ो, विक्रेता-प्रकाशित आंकड़ों के अनुसार GPT-5.4 (57.7) और Claude Opus 4.6 (57.3) को पीछे छोड़ते हुए। वज़न यहाँ उपलब्ध हैं [huggingface.co/zai-org/GLM-5.1](https://huggingface.co/zai-org/GLM-5.1) के अंतर्गत **MIT लाइसेंस**.
{% endhint %}

GLM-5.1 एक **744-अरब पैरामीटर वाला Mixture-of-Experts** भाषा मॉडल है जो केवल सक्रिय करता है **प्रति टोकन \~40B पैरामीटर**। अपने पूर्ववर्ती की तुलना में [GLM-5](/guides/guides_v2-hi/language-models/glm5.md), 5.1 रिलीज़ वही MoE संरचना बनाए रखती है, लेकिन परिष्कृत विशेषज्ञ रूटिंग, एक **200K-टोकन कॉन्टेक्स्ट विंडो**एक **131K-टोकन अधिकतम आउटपुट**, और प्रशिक्षण जो केंद्रित है **लंबी-अवधि एजेंटिक कोडिंग** पर — मॉडल को स्पष्ट रूप से हजारों टूल कॉल और सैकड़ों रीफैक्टर राउंड को बिना भटके बनाए रखने के लिए ट्यून किया गया है।

Clore.ai उपयोगकर्ताओं के लिए, दिलचस्प हिस्सा है **40B सक्रिय** आंकड़ा: इसे सर्व करने के लिए आपको पूरा 8×H200 रैक नहीं चाहिए। एक टेंसर-पैरलल सेटअप **2×H100 80GB** (FP8) या **4×A100 80GB** (शार्डिंग के साथ BF16) व्यावहारिक थ्रूपुट के लिए पर्याप्त है — जिससे फ्रंटियर-स्तरीय कोडिंग लगभग $12–24/दिन में मार्केटप्लेस पर पहुँच में आ जाती है।

### के माध्यम से किराए पर लिए गए GPU सर्वरों पर चलते हैं

| गुण               | मान                                                 |
| ----------------- | --------------------------------------------------- |
| कुल पैरामीटर      | 744B (MoE)                                          |
| सक्रिय पैरामीटर   | प्रति फॉरवर्ड पास \~40B                             |
| कॉन्टेक्स्ट विंडो | 200,000 टोकन                                        |
| अधिकतम आउटपुट     | 131,072 टोकन                                        |
| लाइसेंस           | MIT                                                 |
| रिलीज़ तिथि       | 7 अप्रैल, 2026                                      |
| संगठन             | Z.ai (HuggingFace पर zai-org)                       |
| प्राथमिक टूलिंग   | vLLM, SGLang, llama.cpp (GGUF), xLLM, KTransformers |

### GLM-5.1 क्यों?

* **SWE-Bench Pro पर #1** — विक्रेता-दावा 58.4%, GPT-5.4 और Claude Opus 4.6 से आगे
* **लंबी-अवधि एजेंट** — सैकड़ों राउंड और हजारों टूल कॉल में अनुकूलन को बनाए रखता है
* **200K कॉन्टेक्स्ट** — एक पूरे मध्यम आकार के कोडबेस के साथ टेस्ट सूट के लिए पर्याप्त
* **40B सक्रिय MoE** — आप 744B वाले की बजाय 40B dense मॉडल के inference की लागत चुकाते हैं
* **MIT लाइसेंस** — पूरी तरह खुले वेट्स, व्यावसायिक उपयोग या फाइन-ट्यूनिंग पर कोई प्रतिबंध नहीं
* **ओपन ट्रेनिंग स्टैक** — Z.ai ने मॉडल प्रकाशित किया, कथित तौर पर Nvidia डेटा-सेंटर GPUs के बिना प्रशिक्षित

***

## आवश्यकताएँ

{% hint style="warning" %}
**फिर भी यह एक बड़ा मॉडल है।** हालाँकि "40B सक्रिय" सुनने में सुविधाजनक लगता है, पूरे 744B वेट्स को VRAM में लोड करना होगा (या offload करना होगा)। FP8 वेट्स लगभग 860GB हैं; BF16 लगभग 1.5TB है। उसी अनुसार योजना बनाएं।
{% endhint %}

| घटक      | न्यूनतम (Q4 GGUF, ऑफलोड)  | अनुशंसित (FP8)              | पूर्ण BF16    |
| -------- | ------------------------- | --------------------------- | ------------- |
| GPU VRAM | \~80GB (Q4 + RAM offload) | 2× H100 80GB सक्रिय, 8× कुल | 8× H200 141GB |
| RAM      | 256GB                     | 256GB                       | 512GB         |
| डिस्क    | 500GB NVMe                | 1TB NVMe                    | 2TB NVMe      |
| CUDA     | 12.4+                     | 12.4+                       | 12.6+         |

**Clore.ai चयन:** अधिकांश टीमों के लिए, आक्रामक offloading के साथ FP8 चेकपॉइंट चलाने वाले 2× H100 80GB सबसे उपयुक्त हैं (\~$12–16/दिन)। यदि आपको पूर्ण BF16 थ्रूपुट चाहिए, तो 8× H200 पर जाएँ या कभी-कभार के कॉल्स के लिए Z.ai API का उपयोग करें।

***

## विकल्प A — Ollama / GGUF (Quantized, समुदाय बिल्ड)

{% hint style="warning" %}
**ध्यान दें:** समुदाय GGUF क्वांट्स आमतौर पर Z.ai रिलीज़ के 1–2 हफ्ते बाद आते हैं। यदि `ollama pull` विफल हो, तो देखें [huggingface.co/models?search=glm-5.1+gguf](https://huggingface.co/models?search=glm-5.1+gguf) और llama.cpp को सीधे फ़ाइल की ओर इंगित करें।
{% endhint %}

```bash
# एक बार Q4_K_M बिल्ड उपलब्ध हो जाए
docker exec ollama ollama pull glm-5.1:q4_K_M
docker exec ollama ollama run glm-5.1:q4_K_M

# या GGUF फ़ाइल पर सीधे llama.cpp के साथ
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/glm-5.1-q4_k_m.gguf \
  --n-gpu-layers 80 --ctx-size 32768 \
  --port 8080 --host 0.0.0.0
```

***

## विकल्प B — vLLM (प्रोडक्शन API, अनुशंसित)

vLLM, Z.ai का first-class सर्विंग लक्ष्य है। FP8 चेकपॉइंट (`zai-org/GLM-5.1-FP8`) वही है जो आपको चाहिए — BF16 जितनी ही गुणवत्ता, लगभग आधी मेमोरी।

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model zai-org/GLM-5.1-FP8
      --tensor-parallel-size 8
      --max-model-len 65536
      --gpu-memory-utilization 0.88
      --tool-call-parser glm47
      --reasoning-parser glm45
      --enable-auto-tool-choice
      --served-model-name glm-5.1
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# API का परीक्षण करें
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.1",
    "messages": [
      {"role": "system", "content": "आप एक वरिष्ठ सॉफ्टवेयर इंजीनियर हैं।"},
      {"role": "user", "content": "इस Go हैंडलर को context.Context का सही उपयोग करने के लिए refactor करें और retries जोड़ें."}
    ],
    "max_tokens": 4096,
    "temperature": 1.0
  }'
```

{% hint style="info" %}
इस्तेमाल करें `--tensor-parallel-size 2` 2× H100 पर यदि आप GPU संख्या में तंग चल रहे हों, लेकिन 200K कॉन्टेक्स्ट्स पर धीमे prefill के लिए योजना बनाएं। `--enable-chunked-prefill` काफ़ी मदद करता है।
{% endhint %}

***

## विकल्प C — SGLang (वैकल्पिक, अक्सर Hopper पर तेज़)

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \
  --model-path zai-org/GLM-5.1-FP8 \
  --tp-size 8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.88 \
  --context-length 65536 \
  --served-model-name glm-5.1
```

SGLang का EAGLE speculative decoding आमतौर पर लंबे कोडिंग completions पर 1.5–2× थ्रूपुट बढ़ोतरी देता है।

***

## Clore.ai GPU अनुशंसाएँ

| सेटअप         | VRAM    | अपेक्षित प्रदर्शन                 | Clore.ai लागत |
| ------------- | ------- | --------------------------------- | ------------- |
| 2× H100 80GB  | 160GB   | offload के साथ FP8, \~15–25 tok/s | \~$12–16/दिन  |
| 4× A100 80GB  | 320GB   | शार्डेड BF16, \~20–30 tok/s       | \~$15–22/दिन  |
| 8× H100 80GB  | 640GB   | पूर्ण FP8, \~60+ tok/s            | \~$40–55/दिन  |
| 8× H200 141GB | 1,128GB | पूर्ण BF16, अधिकतम थ्रूपुट        | \~$70+/दिन    |

{% hint style="success" %}
**सबसे अच्छा मूल्य:** FP8 चेकपॉइंट के साथ 2× H100 80GB। आपको लगभग Claude Opus subscription की कीमत में फ्रंटियर-स्तरीय कोडिंग प्रदर्शन मिलता है — और वेट्स आपके बॉक्स पर ही रहते हैं।
{% endhint %}

***

## उपयोग के मामले

* **स्वायत्त SWE एजेंट** — GLM-5.1 को लंबी tool-calling लूप्स के लिए स्पष्ट रूप से प्रशिक्षित किया गया है; इसे SWE-agent या OpenHands जैसे किसी टूल के साथ जोड़ें
* **कोडबेस समझ** — 100K+ टोकन Go/Rust/Python को कॉन्टेक्स्ट में डालें और आर्किटेक्चरल समीक्षा माँगें
* **लंबे-कॉन्टेक्स्ट RAG** — 200K ctx एक बार में पूरे प्रोडक्ट डॉक्यूमेंट्स + सपोर्ट टिकट्स को संभाल लेता है
* **रीफैक्टर पाइपलाइन** — सैकड़ों फ़ाइल संपादनों में निरंतर शुद्धता
* **एजेंट-ऑफ़-एजेंट्स ऑर्केस्ट्रेशन** — GLM-5.1 को प्लानर और छोटे मॉडल्स (Qwen3.5-35B, GLM-4.7) को वर्कर्स के रूप में इस्तेमाल करें

***

## बेंचमार्क

{% hint style="warning" %}
**विक्रेता-दावा — स्वतंत्र रूप से सत्यापित करें।** नीचे दिए गए आंकड़े Z.ai की 7 अप्रैल, 2026 की घोषणा से लिए गए हैं। SWE-Bench Pro पर स्वतंत्र पुनरुत्पादन अभी भी आ रहे हैं।
{% endhint %}

| बेंचमार्क          | GLM-5.1   | GPT-5.4 | Claude Opus 4.6 | GLM-5 |
| ------------------ | --------- | ------- | --------------- | ----- |
| SWE-Bench Pro      | **58.4%** | 57.7%   | 57.3%           | \~52% |
| SWE-Bench Verified | \~79%     | \~78%   | \~80%           | 77.8% |
| HumanEval          | \~94%     | \~95%   | \~94%           | \~93% |
| LiveCodeBench      | \~72%     | \~73%   | \~70%           | \~68% |

***

## समस्या-निवारण

| समस्या                            | समाधान                                                                                                                        |
| --------------------------------- | ----------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` लोड पर         | FP8 चेकपॉइंट के लिए कुल लगभग 860GB VRAM चाहिए। 8× H100/H200 का उपयोग करें या RAM offload के साथ GGUF Q4 पर जाएँ।              |
| धीमी HuggingFace डाउनलोड          | इस्तेमाल करें `huggingface-cli download zai-org/GLM-5.1-FP8 --local-dir ./weights --resume-download`. 800GB+ की अपेक्षा करें। |
| टूल कॉल्स चुपचाप छोड़ दी गईं      | सुनिश्चित करें `--tool-call-parser glm47` और `--enable-auto-tool-choice` vLLM में दोनों सेट हों।                              |
| थिंकिंग मोड खाली                  | आवश्यक है `temperature=1.0` — zero-temp sampling से reasoning trace टूट जाता है।                                              |
| vLLM कॉन्फ़िग को अस्वीकार करता है | GLM-5.1 को vLLM ≥ 0.7.x (अप्रैल 2026 रिलीज़) चाहिए। इस्तेमाल करें `pip install -U vllm --pre` यदि आप पुराने संस्करणों पर हैं। |
| 200K कॉन्टेक्स्ट OOMs             | शुरू करें `--max-model-len 65536` और जोड़ें `--enable-chunked-prefill`; स्थिर होने पर बढ़ाएँ।                                 |

***

## अगले चरण

* **पूर्ववर्ती:** [GLM-5](/guides/guides_v2-hi/language-models/glm5.md) — वही MoE आकार, लेकिन कोडिंग पर थोड़ा कम केंद्रित
* **सस्ता विकल्प:** [Qwen3.5](/guides/guides_v2-hi/language-models/qwen35.md) — 35B dense एकल RTX 4090 पर फिट हो जाता है
* **विशाल-कॉन्टेक्स्ट विकल्प:** [DeepSeek V4](/guides/guides_v2-hi/language-models/deepseek-v4.md) — 1M ctx, multimodal, \~1T params
* **Clore.ai मार्केटप्लेस:** [clore.ai/marketplace](https://clore.ai/marketplace) — H100/H200/A100 को $0.50/दिन से किराए पर लें

### लिंक

* [HuggingFace पर GLM-5.1](https://huggingface.co/zai-org/GLM-5.1)
* [Z.ai ब्लॉग — GLM-5.1 घोषणा](https://z.ai/blog/glm-5.1)
* [Z.ai प्लेटफ़ॉर्म (होस्टेड API)](https://chat.z.ai)
* [vLLM दस्तावेज़](https://docs.vllm.ai)
* [SGLang रिपॉजिटरी](https://github.com/sgl-project/sglang)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/language-models/glm-5-1.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.