Ling-2.5-1T (1 ट्रिलियन पैरामीटर)
Clore.ai GPUs पर Ling-2.5-1T चलाएँ — Ant Group का 1 ट्रिलियन पैरामीटर ओपन-सोर्स LLM हाइब्रिड लीनियर अटेंशन के साथ
Ant Group द्वारा Ling-2.5-1T (रिलीज़ 16 फ़रवरी, 2026) अब तक जारी किए गए सबसे बड़े ओपन-सोर्स भाषा मॉडलों में से एक है — कुल 1 ट्रिलियन पैरामीटर जिनमें 63B सक्रिय हैं. यह एक हाइब्रिड लिनियर अटेंशन आर्किटेक्चर पेश करता है जो 1 मिलियन टोकन तक के कॉन्टेक्स्ट लंबाई पर कुशल इन्फरेंस सक्षम करता है। इसके साथ ही, Ant Group ने Ring-2.5-1T जारी किया, जो दुनिया का पहला हाइब्रिड लिनियर-आर्किटेक्चर थिंकिंग मॉडल है। साथ मिलकर, ये ओपन-सोर्स एआई में एक नया फ्रंटियर प्रतिनिधित्व करते हैं — तर्क और एजेंटिक बेंचमार्क्स पर GPT-5.2, DeepSeek V3.2, और Kimi K2.5 के साथ प्रतिस्पर्धी।
HuggingFace: inclusionAI/Ling-2.5-1T सहयोगी मॉडल: inclusionAI/Ring-2.5-1T (थिंकिंग/तर्क संस्करण) लाइसेंस: ओपन सोर्स (Ant Group InclusionAI लाइसेंस)
प्रमुख विशेषताएँ
कुल 1 ट्रिलियन पैरामीटर, 63B सक्रिय — विशाल स्केल के साथ प्रभावी MoE-शैली सक्रियण
हाइब्रिड लिनियर अटेंशन — लंबी सीक्वेंस पर असाधारण थ्रूपुट के लिए MLA (मल्टी-हेड लिनियर अटेंशन) को Lightning Linear Attention के साथ जोड़ता है
1M टोकन कॉन्टेक्स्ट विंडो — नेटिव 256K से YaRN एक्सटेंशन के माध्यम से, पूरे कोडबेस और पुस्तक-लंबाई के दस्तावेज़ों को संभालता है
फ्रंटियर तर्कशीलता — सोचने वाले मॉडल के प्रदर्शन के करीब पहुंचता है जबकि ~4× कम आउटपुट टोकन का उपयोग करता है
एजेंटिक क्षमताएँ — Agentic RL के साथ प्रशिक्षित, Claude Code, OpenCode, और OpenClaw के साथ संगत
Ring-2.5-1T सहयोगी — समर्पित तर्क- संस्करण IMO 2025 और CMO 2025 स्वर्ण पदक स्तर प्राप्त करता है
आर्किटेक्चर विवरण
कुल पैरामीटर
1T (1,000B)
सक्रिय पैरामीटर
63B
आर्किटेक्चर
हाइब्रिड लिनियर अटेंशन (MLA + Lightning Linear)
पूर्व-प्रशिक्षण डेटा
29T टोकन
नेटिव कॉन्टेक्स्ट
256K टोकन
विस्तारित कॉन्टेक्स्ट
1M टोकन (YaRN)
रिलीज़ तिथि
16 फ़रवरी, 2026
आवश्यकताएँ
Ling-2.5-1T को पूर्ण प्रिसिशन पर चलाने के लिए पर्याप्त संसाधन आवश्यक होते हैं। क्वांटाइज़्ड संस्करण इसे अधिक सुलभ बनाते हैं।
GPU
8× RTX 4090
8× H100 80GB
16× H100 80GB
VRAM
8×24GB (192GB)
8×80GB (640GB)
16×80GB (1.28TB)
RAM
256GB
512GB
1TB
डिस्क
600GB
1.2TB
2TB+
CUDA
12.0+
12.0+
12.0+
अनुशंसित Clore.ai सेटअप:
क्वांटाइज़्ड (Q4): 8× RTX 4090 (~$4–16/दिन) — प्रयोग और मध्यम वर्कलोड के लिए उपयोगी
प्रोडक्शन (FP8): 8× H100 (~$24–48/दिन) — अच्छी थ्रूपुट के साथ पूर्ण गुणवत्ता
नोट: यह एक अत्यंत बड़ा मॉडल है। बजट-संवेदनशील उपयोगकर्ताओं के लिए, Ling परिवार के छोटे मॉडलों पर विचार करें जो HuggingFace.
vLLM के साथ त्वरित प्रारंभ
vLLM Ling-2.5-1T के लिए अनुशंसित सर्विंग फ्रेमवर्क है:
llama.cpp के साथ त्वरित प्रारंभ (क्वांटाइज़्ड)
कंज्यूमर GPU सेटअप्स के लिए, GGUF क्वांटाइज़ेशन उपलब्ध हैं:
उपयोग के उदाहरण
1. OpenAI API के माध्यम से चैट पूर्णता
एक बार vLLM या llama-server चलने पर:
2. लंबी-कॉन्टेक्स्ट दस्तावेज़ विश्लेषण
Ling-2.5-1T का हाइब्रिड लिनियर अटेंशन इसे लंबे दस्तावेज़ों के लिए बेहद कुशल बनाता है:
3. एजेंटिक टूल उपयोग
Ling-2.5-1T टूल कॉलिंग के लिए Agentic RL के साथ प्रशिक्षित है:
Ling-2.5-1T बनाम Ring-2.5-1T
प्रकार
तुरंत (तेज़) मॉडल
सोचने (तर्क) मॉडल
आर्किटेक्चर
हाइब्रिड लिनियर अटेंशन
हाइब्रिड लिनियर अटेंशन
उत्तम हेतु
सामान्य चैट, कोडिंग, एजेंटिक कार्य
गणित, औपचारिक तर्क, जटिल समस्याएँ
आउटपुट शैली
प्रत्यक्ष उत्तर
चेन-ऑफ़-थॉट तर्क
टोकन दक्षता
उच्च (कम आउटपुट टोकन)
तर्क के लिए अधिक टोकन उपयोग करता है
IMO 2025
प्रतिस्पर्धी
स्वर्ण पदक स्तर
Clore.ai उपयोगकर्ताओं के लिए सुझाव
इस मॉडल को गंभीर हार्डवेयर की आवश्यकता है — 1T पैरामीटर पर, यहां तक कि Q4 क्वांटाइज़ेशन के लिए भी ~500GB स्टोरेज और 192GB+ VRAM आवश्यक होते हैं। डाउनलोड करने से पहले सुनिश्चित करें कि आपकी Clore.ai इंस्टेंस में पर्याप्त डिस्क और मल्टी-GPU मौजूद है।
से शुरू करें
--max-model-len 8192— पहली बार परीक्षण करते समय, मॉडल के लोड और सही ढंग से चलने को सत्यापित करने के लिए छोटे कॉन्टेक्स्ट का उपयोग करें। सब कुछ सही होने पर कॉन्टेक्स्ट लंबाई बढ़ाएँ।स्थायी स्टोरेज का उपयोग करें — मॉडल का आकार 1–2TB है। पुनः-डाउनलोड से बचने के लिए Clore.ai पर एक बड़ा पर्सिस्टेंट वॉल्यूम अटैच करें। एक बार डाउनलोड करने के लिए
huggingface-cli download.तर्क संबंधी कार्यों के लिए Ring-2.5-1T पर विचार करें — यदि आपका उपयोग केस मुख्यतः गणित, लॉजिक, या औपचारिक तर्क है, तो सहयोगी Ring-2.5-1T मॉडल विशेष रूप से चेन-ऑफ़-थॉट तर्क के लिए अनुकूलित है।
GPU मेमोरी मॉनिटर करें — 8-GPU सेटअप्स के साथ, उपयोग करें
nvidia-smi -l 1मेमोरी उपयोग की निगरानी और लंबे कॉन्टेक्स्ट के साथ जेनरेशन के दौरान OOM के लिए देखें।
समस्या निवारण
CUDA में आउट ऑफ मेमोरी
घटाएँ --max-model-len; सुनिश्चित करें --tensor-parallel-size GPU काउंट से मेल खाता है; प्रयास करें --gpu-memory-utilization 0.95
बहुत धीमी जेनरेशन
लिनियर अटेंशन को वार्मअप की आवश्यकता होती है; पहले कुछ अनुरोध धीमे हो सकते हैं। यह भी जाँचें कि GPUs के बीच NVLink मौजूद है
मॉडल डाउनलोड विफल होता है
मॉडल BF16 में ~2TB है। पर्याप्त डिस्क स्पेस सुनिश्चित करें। उपयोग करें --resume-download फ्लैग के साथ huggingface-cli
vLLM आर्किटेक्चर का समर्थन नहीं करता
सुनिश्चित करें कि आप vLLM ≥0.7.0 उपयोग कर रहे हैं साथ में --trust-remote-code; कस्टम अटेंशन लेयर्स के लिए इस फ्लैग की आवश्यकता होती है
GGUF उपलब्ध नहीं
जांचें unsloth या समुदाय-क्वांटाइज़ेशन; मॉडल को समुदाय द्वारा क्वांटाइज़ होने में समय लग सकता है
खराब गुणवत्ता वाले उत्तर
तथ्यात्मक कार्यों के लिए तापमान ≤0.1 का उपयोग करें; एक सिस्टम प्रॉम्प्ट जोड़ें; सुनिश्चित करें कि आप कॉन्टेक्स्ट को कट नहीं कर रहे हैं
अधिक पढ़ने के लिए
आधिकारिक घोषणा (BusinessWire) — रिलीज़ विवरण और बेंचमार्क्स
HuggingFace — Ling-2.5-1T — मॉडल वेट्स और दस्तावेज़ीकरण
HuggingFace — Ring-2.5-1T — थिंकिंग मॉडल सहयोगी
ModelScope मिरर — एशिया में तेज़ डाउनलोड्स
vLLM दस्तावेज़ीकरण — सर्विंग फ्रेमवर्क
Last updated
Was this helpful?