Ling-2.5-1T (1 ट्रिलियन पैरामीटर)

Clore.ai GPUs पर Ling-2.5-1T चलाएँ — Ant Group का 1 ट्रिलियन पैरामीटर ओपन-सोर्स LLM हाइब्रिड लीनियर अटेंशन के साथ

Ant Group द्वारा Ling-2.5-1T (रिलीज़ 16 फ़रवरी, 2026) अब तक जारी किए गए सबसे बड़े ओपन-सोर्स भाषा मॉडलों में से एक है — कुल 1 ट्रिलियन पैरामीटर जिनमें 63B सक्रिय हैं. यह एक हाइब्रिड लिनियर अटेंशन आर्किटेक्चर पेश करता है जो 1 मिलियन टोकन तक के कॉन्टेक्स्ट लंबाई पर कुशल इन्फरेंस सक्षम करता है। इसके साथ ही, Ant Group ने Ring-2.5-1T जारी किया, जो दुनिया का पहला हाइब्रिड लिनियर-आर्किटेक्चर थिंकिंग मॉडल है। साथ मिलकर, ये ओपन-सोर्स एआई में एक नया फ्रंटियर प्रतिनिधित्व करते हैं — तर्क और एजेंटिक बेंचमार्क्स पर GPT-5.2, DeepSeek V3.2, और Kimi K2.5 के साथ प्रतिस्पर्धी।

HuggingFace: inclusionAI/Ling-2.5-1Tarrow-up-right सहयोगी मॉडल: inclusionAI/Ring-2.5-1Tarrow-up-right (थिंकिंग/तर्क संस्करण) लाइसेंस: ओपन सोर्स (Ant Group InclusionAI लाइसेंस)

प्रमुख विशेषताएँ

  • कुल 1 ट्रिलियन पैरामीटर, 63B सक्रिय — विशाल स्केल के साथ प्रभावी MoE-शैली सक्रियण

  • हाइब्रिड लिनियर अटेंशन — लंबी सीक्वेंस पर असाधारण थ्रूपुट के लिए MLA (मल्टी-हेड लिनियर अटेंशन) को Lightning Linear Attention के साथ जोड़ता है

  • 1M टोकन कॉन्टेक्स्ट विंडो — नेटिव 256K से YaRN एक्सटेंशन के माध्यम से, पूरे कोडबेस और पुस्तक-लंबाई के दस्तावेज़ों को संभालता है

  • फ्रंटियर तर्कशीलता — सोचने वाले मॉडल के प्रदर्शन के करीब पहुंचता है जबकि ~4× कम आउटपुट टोकन का उपयोग करता है

  • एजेंटिक क्षमताएँ — Agentic RL के साथ प्रशिक्षित, Claude Code, OpenCode, और OpenClaw के साथ संगत

  • Ring-2.5-1T सहयोगी — समर्पित तर्क- संस्करण IMO 2025 और CMO 2025 स्वर्ण पदक स्तर प्राप्त करता है

आर्किटेक्चर विवरण

घटक
विवरण

कुल पैरामीटर

1T (1,000B)

सक्रिय पैरामीटर

63B

आर्किटेक्चर

हाइब्रिड लिनियर अटेंशन (MLA + Lightning Linear)

पूर्व-प्रशिक्षण डेटा

29T टोकन

नेटिव कॉन्टेक्स्ट

256K टोकन

विस्तारित कॉन्टेक्स्ट

1M टोकन (YaRN)

रिलीज़ तिथि

16 फ़रवरी, 2026

आवश्यकताएँ

Ling-2.5-1T को पूर्ण प्रिसिशन पर चलाने के लिए पर्याप्त संसाधन आवश्यक होते हैं। क्वांटाइज़्ड संस्करण इसे अधिक सुलभ बनाते हैं।

कॉन्फ़िगरेशन
क्वांटाइज़्ड (Q4 GGUF)
FP8
BF16 (पूर्ण)

GPU

8× RTX 4090

8× H100 80GB

16× H100 80GB

VRAM

8×24GB (192GB)

8×80GB (640GB)

16×80GB (1.28TB)

RAM

256GB

512GB

1TB

डिस्क

600GB

1.2TB

2TB+

CUDA

12.0+

12.0+

12.0+

अनुशंसित Clore.ai सेटअप:

  • क्वांटाइज़्ड (Q4): 8× RTX 4090 (~$4–16/दिन) — प्रयोग और मध्यम वर्कलोड के लिए उपयोगी

  • प्रोडक्शन (FP8): 8× H100 (~$24–48/दिन) — अच्छी थ्रूपुट के साथ पूर्ण गुणवत्ता

  • नोट: यह एक अत्यंत बड़ा मॉडल है। बजट-संवेदनशील उपयोगकर्ताओं के लिए, Ling परिवार के छोटे मॉडलों पर विचार करें जो HuggingFacearrow-up-right.

vLLM के साथ त्वरित प्रारंभ

vLLM Ling-2.5-1T के लिए अनुशंसित सर्विंग फ्रेमवर्क है:

llama.cpp के साथ त्वरित प्रारंभ (क्वांटाइज़्ड)

कंज्यूमर GPU सेटअप्स के लिए, GGUF क्वांटाइज़ेशन उपलब्ध हैं:

उपयोग के उदाहरण

1. OpenAI API के माध्यम से चैट पूर्णता

एक बार vLLM या llama-server चलने पर:

2. लंबी-कॉन्टेक्स्ट दस्तावेज़ विश्लेषण

Ling-2.5-1T का हाइब्रिड लिनियर अटेंशन इसे लंबे दस्तावेज़ों के लिए बेहद कुशल बनाता है:

3. एजेंटिक टूल उपयोग

Ling-2.5-1T टूल कॉलिंग के लिए Agentic RL के साथ प्रशिक्षित है:

Ling-2.5-1T बनाम Ring-2.5-1T

पहलू
Ling-2.5-1T
Ring-2.5-1T

प्रकार

तुरंत (तेज़) मॉडल

सोचने (तर्क) मॉडल

आर्किटेक्चर

हाइब्रिड लिनियर अटेंशन

हाइब्रिड लिनियर अटेंशन

उत्तम हेतु

सामान्य चैट, कोडिंग, एजेंटिक कार्य

गणित, औपचारिक तर्क, जटिल समस्याएँ

आउटपुट शैली

प्रत्यक्ष उत्तर

चेन-ऑफ़-थॉट तर्क

टोकन दक्षता

उच्च (कम आउटपुट टोकन)

तर्क के लिए अधिक टोकन उपयोग करता है

IMO 2025

प्रतिस्पर्धी

स्वर्ण पदक स्तर

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  1. इस मॉडल को गंभीर हार्डवेयर की आवश्यकता है — 1T पैरामीटर पर, यहां तक कि Q4 क्वांटाइज़ेशन के लिए भी ~500GB स्टोरेज और 192GB+ VRAM आवश्यक होते हैं। डाउनलोड करने से पहले सुनिश्चित करें कि आपकी Clore.ai इंस्टेंस में पर्याप्त डिस्क और मल्टी-GPU मौजूद है।

  2. से शुरू करें --max-model-len 8192 — पहली बार परीक्षण करते समय, मॉडल के लोड और सही ढंग से चलने को सत्यापित करने के लिए छोटे कॉन्टेक्स्ट का उपयोग करें। सब कुछ सही होने पर कॉन्टेक्स्ट लंबाई बढ़ाएँ।

  3. स्थायी स्टोरेज का उपयोग करें — मॉडल का आकार 1–2TB है। पुनः-डाउनलोड से बचने के लिए Clore.ai पर एक बड़ा पर्सिस्टेंट वॉल्यूम अटैच करें। एक बार डाउनलोड करने के लिए huggingface-cli download.

  4. तर्क संबंधी कार्यों के लिए Ring-2.5-1T पर विचार करें — यदि आपका उपयोग केस मुख्यतः गणित, लॉजिक, या औपचारिक तर्क है, तो सहयोगी Ring-2.5-1T मॉडल विशेष रूप से चेन-ऑफ़-थॉट तर्क के लिए अनुकूलित है।

  5. GPU मेमोरी मॉनिटर करें — 8-GPU सेटअप्स के साथ, उपयोग करें nvidia-smi -l 1 मेमोरी उपयोग की निगरानी और लंबे कॉन्टेक्स्ट के साथ जेनरेशन के दौरान OOM के लिए देखें।

समस्या निवारण

समस्या
समाधान

CUDA में आउट ऑफ मेमोरी

घटाएँ --max-model-len; सुनिश्चित करें --tensor-parallel-size GPU काउंट से मेल खाता है; प्रयास करें --gpu-memory-utilization 0.95

बहुत धीमी जेनरेशन

लिनियर अटेंशन को वार्मअप की आवश्यकता होती है; पहले कुछ अनुरोध धीमे हो सकते हैं। यह भी जाँचें कि GPUs के बीच NVLink मौजूद है

मॉडल डाउनलोड विफल होता है

मॉडल BF16 में ~2TB है। पर्याप्त डिस्क स्पेस सुनिश्चित करें। उपयोग करें --resume-download फ्लैग के साथ huggingface-cli

vLLM आर्किटेक्चर का समर्थन नहीं करता

सुनिश्चित करें कि आप vLLM ≥0.7.0 उपयोग कर रहे हैं साथ में --trust-remote-code; कस्टम अटेंशन लेयर्स के लिए इस फ्लैग की आवश्यकता होती है

GGUF उपलब्ध नहीं

जांचें unslotharrow-up-right या समुदाय-क्वांटाइज़ेशन; मॉडल को समुदाय द्वारा क्वांटाइज़ होने में समय लग सकता है

खराब गुणवत्ता वाले उत्तर

तथ्यात्मक कार्यों के लिए तापमान ≤0.1 का उपयोग करें; एक सिस्टम प्रॉम्प्ट जोड़ें; सुनिश्चित करें कि आप कॉन्टेक्स्ट को कट नहीं कर रहे हैं

अधिक पढ़ने के लिए

Last updated

Was this helpful?