GLM-5
Clore.ai पर Zhipu AI द्वारा GLM-5 (744B MoE) तैनात करें — API एक्सेस और vLLM के साथ सेल्फ-होस्टिंग।
GLM-5, जिसे फरवरी 2026 में Zhipu AI (Z.AI) ने जारी किया, एक 744-अरब पैरामीटर मिश्रण-ऑफ-एक्सपर्ट्स भाषा मॉडल है जो प्रति टोकन केवल 40B पैरामीटर सक्रिय करता है। यह तर्क, कोडिंग, और एजेन्ट-संबंधी कार्यों में सर्वश्रेष्ठ ओपन-सोर्स प्रदर्शन प्राप्त करता है — SWE-bench Verified में 77.8% अंक प्राप्त करते हुए और Claude Opus 4.5 और GPT-5.2 जैसे अग्रणी मॉडलों का मुकाबला करता है। मॉडल उपलब्ध है MIT लाइसेंस पर।
प्रमुख विशेषताएँ
कुल 744B / सक्रिय 40B — 256-एक्सपर्ट MoE अत्यंत कुशल राउटिंग के साथ
अग्रणी कोडिंग प्रदर्शन — 77.8% SWE-bench Verified, 73.3% SWE-bench बहुभाषी
गहन तर्क क्षमता — AIME 2026 में 92.7%, HMMT नव 2025 में 96.9%, निर्मित सोच/थिंकिंग मोड
एजेंटिक क्षमताएँ — मूल-निवास टूल कॉलिंग, फ़ंक्शन निष्पादन, और लंबी-कालिक कार्य योजना
200K+ संदर्भ विंडो — विशाल कोडबेस और लंबे दस्तावेज़ों को संभालता है
MIT लाइसेंस — पूर्णतः खुले वज़न, वाणिज्यिक उपयोग की अनुमति
आवश्यकताएँ
GLM-5 को स्वयं होस्ट करना एक गंभीर प्रयास है — FP8 चेकपॉइंट को आवश्यकता होती है लगभग 860GB VRAM.
GPU
8× H100 80GB
8× H200 141GB
VRAM
640GB
1,128GB
RAM
256GB
512GB
डिस्क
1.5TB NVMe
2TB NVMe
CUDA
12.0+
12.4+
Clore.ai सिफारिश: अधिकांश उपयोगकर्ताओं के लिए, GLM-5 तक पहुँच प्राप्त करें API के माध्यम से (Z.AI, OpenRouter)। स्वयं होस्ट करना केवल तब समझदारी है जब आप 8× H100/H200 किराए पर ले सकें (~Clore.ai पर ~$24–48/दिन)।
API एक्सेस (अधिकांश उपयोगकर्ताओं के लिए सुझाया गया)
Clore.ai मशीन से या कहीं भी GLM-5 का उपयोग करने का सबसे व्यावहारिक तरीका:
Z.AI प्लेटफ़ॉर्म के माध्यम से
OpenRouter के माध्यम से
vLLM सेटअप (स्वयं-होस्टिंग)
उन लोगों के लिए जिनके पास Clore.ai पर उच्च-स्तरीय मल्टी-GPU मशीनों की पहुँच है:
8× H200 GPUs पर FP8 परोसें
सर्वर से प्रश्न पूछें
SGLang विकल्प
SGLang भी GLM-5 का समर्थन करता है और कुछ हार्डवेयर पर बेहतर प्रदर्शन दे सकता है:
Docker त्वरित शुरुआत
टूल कॉलिंग उदाहरण
GLM-5 में अंतर्निहित टूल-कॉलिंग समर्थन है — एजेन्टिक एप्लिकेशन बनाने के लिए आदर्श:
Clore.ai उपयोगकर्ताओं के लिए सुझाव
पहले API, फिर स्वयं-होस्ट: GLM-5 के लिए 8× H200 की आवश्यकता होती है (~Clore.ai पर ~$24–48/दिन)। कभी-कभी उपयोग के लिए, Z.AI API या OpenRouter कहीं अधिक किफायती हैं। स्वयं-होस्ट केवल तब करें जब आपको निरंतर थ्रूपुट या डेटा गोपनीयता की जरूरत हो।
बिल्कुल GLM-4.7 पर विचार करें: यदि 8× H200 बहुत अधिक है, तो पूर्ववर्ती GLM-4.7 (355B, 32B सक्रिय) 4× H200 या 4× H100 (~$12–24/दिन) पर चलता है और अभी भी उत्कृष्ट प्रदर्शन देता है।
FP8 वज़न का उपयोग करें: हमेशा उपयोग करें
zai-org/GLM-5-FP8— BF16 के समान गुणवत्ता पर लेकिन लगभग आधा मेमोरी फुटप्रिंट। BF16 संस्करण के लिए 16× GPUs की आवश्यकता होती है।VRAM उपयोग की निगरानी करें:
watch nvidia-smi— लंबी संदर्भ क्वेरी मेमोरी को अचानक बढ़ा सकती हैं। सेट करें--gpu-memory-utilization 0.85ताकि हेडरूम छोड़ा जा सके।थिंकिंग मोड का ट्रेडऑफ़: थिंकिंग मोड जटिल कार्यों के लिए बेहतर परिणाम देता है लेकिन अधिक टोकन और समय लेता है। सरल प्रश्नों के लिए इसे अक्षम करें with
enable_thinking: false.
समस्याओं का निवारण
OutOfMemoryError स्टार्टअप पर
सुनिश्चित करें कि आपके पास 8× H200 (प्रत्येक 141GB) हैं। FP8 को ~860GB कुल VRAM की आवश्यकता होती है।
धीमे डाउनलोड (~800GB)
उपयोग करें huggingface-cli download zai-org/GLM-5-FP8 के साथ --local-dir पर पुनरारंभ करने के लिए।
vLLM संस्करण असंगति
GLM-5 के लिए vLLM nightly आवश्यक है। इंस्टॉल करें via pip install -U vllm --pre.
टूल कॉल काम नहीं कर रहे
जोड़ें --tool-call-parser glm47 --enable-auto-tool-choice सेवार्थ कमांड चलाने के लिए।
DeepGEMM त्रुटियाँ
FP8 के लिए DeepGEMM इंस्टॉल करें: उपयोग करें install_deepgemm.sh स्क्रिप्ट vLLM रेपो से।
थिंकिंग मोड आउटपुट खाली
सेट करें temperature=1.0 — थिंकिंग मोड के लिए गैर-शून्य तापमान आवश्यक है।
अधिक पढ़ने के लिए
Last updated
Was this helpful?