GLM-5

Clore.ai पर Zhipu AI द्वारा GLM-5 (744B MoE) तैनात करें — API एक्सेस और vLLM के साथ सेल्फ-होस्टिंग।

GLM-5, जिसे फरवरी 2026 में Zhipu AI (Z.AI) ने जारी किया, एक 744-अरब पैरामीटर मिश्रण-ऑफ-एक्सपर्ट्स भाषा मॉडल है जो प्रति टोकन केवल 40B पैरामीटर सक्रिय करता है। यह तर्क, कोडिंग, और एजेन्ट-संबंधी कार्यों में सर्वश्रेष्ठ ओपन-सोर्स प्रदर्शन प्राप्त करता है — SWE-bench Verified में 77.8% अंक प्राप्त करते हुए और Claude Opus 4.5 और GPT-5.2 जैसे अग्रणी मॉडलों का मुकाबला करता है। मॉडल उपलब्ध है MIT लाइसेंस पर।

प्रमुख विशेषताएँ

  • कुल 744B / सक्रिय 40B — 256-एक्सपर्ट MoE अत्यंत कुशल राउटिंग के साथ

  • अग्रणी कोडिंग प्रदर्शन — 77.8% SWE-bench Verified, 73.3% SWE-bench बहुभाषी

  • गहन तर्क क्षमता — AIME 2026 में 92.7%, HMMT नव 2025 में 96.9%, निर्मित सोच/थिंकिंग मोड

  • एजेंटिक क्षमताएँ — मूल-निवास टूल कॉलिंग, फ़ंक्शन निष्पादन, और लंबी-कालिक कार्य योजना

  • 200K+ संदर्भ विंडो — विशाल कोडबेस और लंबे दस्तावेज़ों को संभालता है

  • MIT लाइसेंस — पूर्णतः खुले वज़न, वाणिज्यिक उपयोग की अनुमति

आवश्यकताएँ

GLM-5 को स्वयं होस्ट करना एक गंभीर प्रयास है — FP8 चेकपॉइंट को आवश्यकता होती है लगभग 860GB VRAM.

घटक
न्यूनतम (FP8)
अनुशंसित

GPU

8× H100 80GB

8× H200 141GB

VRAM

640GB

1,128GB

RAM

256GB

512GB

डिस्क

1.5TB NVMe

2TB NVMe

CUDA

12.0+

12.4+

Clore.ai सिफारिश: अधिकांश उपयोगकर्ताओं के लिए, GLM-5 तक पहुँच प्राप्त करें API के माध्यम से (Z.AI, OpenRouter)। स्वयं होस्ट करना केवल तब समझदारी है जब आप 8× H100/H200 किराए पर ले सकें (~Clore.ai पर ~$24–48/दिन)।

API एक्सेस (अधिकांश उपयोगकर्ताओं के लिए सुझाया गया)

Clore.ai मशीन से या कहीं भी GLM-5 का उपयोग करने का सबसे व्यावहारिक तरीका:

Z.AI प्लेटफ़ॉर्म के माध्यम से

OpenRouter के माध्यम से

vLLM सेटअप (स्वयं-होस्टिंग)

उन लोगों के लिए जिनके पास Clore.ai पर उच्च-स्तरीय मल्टी-GPU मशीनों की पहुँच है:

8× H200 GPUs पर FP8 परोसें

सर्वर से प्रश्न पूछें

SGLang विकल्प

SGLang भी GLM-5 का समर्थन करता है और कुछ हार्डवेयर पर बेहतर प्रदर्शन दे सकता है:

Docker त्वरित शुरुआत

टूल कॉलिंग उदाहरण

GLM-5 में अंतर्निहित टूल-कॉलिंग समर्थन है — एजेन्टिक एप्लिकेशन बनाने के लिए आदर्श:

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  • पहले API, फिर स्वयं-होस्ट: GLM-5 के लिए 8× H200 की आवश्यकता होती है (~Clore.ai पर ~$24–48/दिन)। कभी-कभी उपयोग के लिए, Z.AI API या OpenRouter कहीं अधिक किफायती हैं। स्वयं-होस्ट केवल तब करें जब आपको निरंतर थ्रूपुट या डेटा गोपनीयता की जरूरत हो।

  • बिल्कुल GLM-4.7 पर विचार करें: यदि 8× H200 बहुत अधिक है, तो पूर्ववर्ती GLM-4.7 (355B, 32B सक्रिय) 4× H200 या 4× H100 (~$12–24/दिन) पर चलता है और अभी भी उत्कृष्ट प्रदर्शन देता है।

  • FP8 वज़न का उपयोग करें: हमेशा उपयोग करें zai-org/GLM-5-FP8 — BF16 के समान गुणवत्ता पर लेकिन लगभग आधा मेमोरी फुटप्रिंट। BF16 संस्करण के लिए 16× GPUs की आवश्यकता होती है।

  • VRAM उपयोग की निगरानी करें: watch nvidia-smi — लंबी संदर्भ क्वेरी मेमोरी को अचानक बढ़ा सकती हैं। सेट करें --gpu-memory-utilization 0.85 ताकि हेडरूम छोड़ा जा सके।

  • थिंकिंग मोड का ट्रेडऑफ़: थिंकिंग मोड जटिल कार्यों के लिए बेहतर परिणाम देता है लेकिन अधिक टोकन और समय लेता है। सरल प्रश्नों के लिए इसे अक्षम करें with enable_thinking: false.

समस्याओं का निवारण

समस्या
समाधान

OutOfMemoryError स्टार्टअप पर

सुनिश्चित करें कि आपके पास 8× H200 (प्रत्येक 141GB) हैं। FP8 को ~860GB कुल VRAM की आवश्यकता होती है।

धीमे डाउनलोड (~800GB)

उपयोग करें huggingface-cli download zai-org/GLM-5-FP8 के साथ --local-dir पर पुनरारंभ करने के लिए।

vLLM संस्करण असंगति

GLM-5 के लिए vLLM nightly आवश्यक है। इंस्टॉल करें via pip install -U vllm --pre.

टूल कॉल काम नहीं कर रहे

जोड़ें --tool-call-parser glm47 --enable-auto-tool-choice सेवार्थ कमांड चलाने के लिए।

DeepGEMM त्रुटियाँ

FP8 के लिए DeepGEMM इंस्टॉल करें: उपयोग करें install_deepgemm.sh स्क्रिप्ट vLLM रेपो से।

थिंकिंग मोड आउटपुट खाली

सेट करें temperature=1.0 — थिंकिंग मोड के लिए गैर-शून्य तापमान आवश्यक है।

अधिक पढ़ने के लिए

Last updated

Was this helpful?