LFM2-24B-A2B
Liquid AI द्वारा LFM2-24B-A2B को Clore.ai पर तैनात करें — 24B कुल / 2B सक्रिय पैरामीटर के साथ हाइब्रिड SSM+Attention आर्किटेक्चर
LFM2-24B-A2B द्रव AI (Liquid AI) के हाइब्रिड के माध्यम से कुशल भाषा मॉडलिंग में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। स्टेट स्पेस मॉडल + अटेंशन आर्किटेक्चर। कुल 24B पैरामीटर होने पर प्रत्येक टोकन पर केवल 2B सक्रिय पैरामीटर होने के कारण यह प्रभावशाली प्रदर्शन देता है और FP16 इंफरेंस के लिए केवल ~6GB VRAM की आवश्यकता होती है। यह मॉडल RTX 4090 पर ~350 टोक/सेकंड प्राप्त करता है, जिससे यह उपलब्ध तेज़ बड़े भाषा मॉडलों में से एक बनता है।
संक्षेप में
मॉडल आकार: 24B कुल / 2B सक्रिय पैरामीटर (हाइब्रिड SSM+Attention)
लाइसेंस: Liquid AI ओपन लाइसेंस (गैर-व्यावसायिक नि:शुल्क, व्यावसायिक लाइसेंस उपलब्ध)
संदर्भ: 32K टोकन
प्रदर्शन: 7B-13B डेंस मॉडलों के साथ प्रतिस्पर्धी
VRAM: ~6GB FP16, ~3GB INT8
गति: RTX 4090 पर ~350 टोक/सेक, RTX 3090 पर ~200 टोक/सेक
क्यों LFM2-24B-A2B?
क्रांतिकारी आर्किटेक्चर: LFM2-24B-A2B स्टेट स्पेस मॉडलों (SSMs) को चयनात्मक अटेंशन मैकेनिज्म के साथ जोड़ता है। SSM अनुक्रमिक प्रसंस्करण को कुशलता से संभालते हैं जबकि अटेंशन लेयर्स जटिल तर्क पर ध्यान केंद्रित करती हैं। यह हाइब्रिड दृष्टिकोण छोटे मॉडल की दक्षता के साथ बड़े मॉडल की गुणवत्ता प्राप्त करता है।
उत्कृष्ट गति: 2B सक्रिय पैरामीटर डिज़ाइन तीव्र-गति वाला इंफरेंस सक्षम करता है। पारंपरिक मॉडलों के विपरीत जहाँ सभी पैरामीटर सक्रिय होते हैं, LFM2 केवल आवश्यक घटकों को ही चयनित रूप से सक्रिय करता है, जिसके परिणामस्वरूप उपभोक्ता हार्डवेयर पर 350+ टोकन/सेकंड मिलता है।
मेमोरी कुशल: केवल 6GB FP16 VRAM होने पर, LFM2-24B-A2B मध्यम श्रेणी के GPU पर आराम से चलता है। यह इसे एज पर परिनियोजन, विकास परिवेशों और लागत-सचेत उत्पादन सेटअप के लिए आदर्श बनाता है।
Liquid AI नवाचार: Liquid AI (जिसकी स्थापना MIT शोधकर्ताओं ने की थी) द्वारा विकसित, LFM2 न्यूरल आर्किटेक्चर में अत्याधुनिक अनुसंधान का प्रतिनिधित्व करता है। हाइब्रिड SSM+Attention डिज़ाइन कुशल भाषा मॉडलिंग का भविष्य हो सकता है।
लाइसेंसिंग नोट: Liquid AI ओपन लाइसेंस गैर-व्यावसायिक उपयोग की अनुमति देता है। व्यावसायिक परिनियोजन के लिए Liquid AI से अलग लाइसेंस की आवश्यकता होती है। यह नहीं MIT — उत्पादन उपयोग से पहले लाइसेंस की शर्तों की पुष्टि करें।
GPU सिफारिशें
RTX 3060 12GB
12GB
~180 टोक/सेक
~$0.80
RTX 3070
8GB
~220 टोक/सेक
~$0.90
RTX 4060 Ti
16GB
~300 टोक/सेक
~$1.20
RTX 4090
24GB
~350 टोक/सेक
~$2.10
RTX 3090
24GB
~200 टोक/सेक
~$1.10
A100 40GB
40GB
~400 टोक/सेक
~$3.50
सर्वोत्तम मूल्य: RTX 4060 Ti 16GB प्रति डॉलर उत्कृष्ट प्रदर्शन प्रदान करता है। अधिकतम गति: RTX 4090 LFM2 की पूरी क्षमता जारी करता है।
*Clore.ai मार्केटप्लेस कीमतों का अनुमानित मान
vLLM के साथ परिनियोजित करें
vLLM इंस्टॉल करें
सिंगल GPU सेटअप
सर्वर से प्रश्न पूछें
Ollama के साथ परिनियोजित करें
Ollama सबसे सरल परिनियोजन मार्ग प्रदान करता है:
Ollama API उपयोग
डॉकर टेम्पलेट
बिल्ड और चलाएँ:
गति बेंचमार्क
LFM2 की असाधारण इंफरेंस गति का परीक्षण करें:
कम VRAM के लिए क्वांटाइज़ेशन
सीमित VRAM वाले GPU के लिए, क्वांटाइज़्ड संस्करणों का उपयोग करें:
GPTQ क्वांटाइज़ेशन
AWQ क्वांटाइज़ेशन
उन्नत विन्यास
मेमोरी-अनुकूलित सेटअप
8GB GPU के लिए:
उच्च-थ्रूपुट सेटअप
उत्पादन वर्कलोड के लिए:
SSM आर्किटेक्चर लाभ
LFM2 का हाइब्रिड SSM+Attention अनूठे लाभ प्रदान करता है:
रैखिक स्केलिंग: SSM अनुक्रम लंबाई के साथ रैखिक रूप से स्केल करते हैं, जबकि पारंपरिक ट्रांसफॉर्मर द्विघात रूप से स्केल करते हैं। यह लंबे-संदर्भ प्रसंस्करण को कुशल बनाता है।
चयनात्मक अटेंशन: केवल महत्वपूर्ण टोकन ही पूर्ण अटेंशन मैकेनिज्म को सक्रिय करते हैं, जिससे गणनात्मक ओवरहेड कम होता है।
मेमोरी दक्षता: 2B सक्रिय पैरामीटर डिज़ाइन का अर्थ है कि 24B में से अधिकांश पैरामीटर इंफरेंस के दौरान निष्क्रिय रहते हैं, जिससे मेमोरी बैंडविड्थ आवश्यकताएँ काफी घट जाती हैं।
तेज़ अनुक्रमिक प्रसंस्करण: SSM पाठ जनरेशन जैसे अनुक्रमिक कार्यों में उत्कृष्ट हैं, और शुद्ध अटेंशन मैकेनिज्म की तुलना में अधिक थ्रूपुट प्राप्त करते हैं।
Clore.ai उपयोगकर्ताओं के लिए सुझाव
सिंगल GPU केंद्रित: LFM2-24B-A2B सिंगल-GPU परिनियोजन के लिए अनुकूलित है। मल्टी-GPU सेटअप महत्वपूर्ण लाभ प्रदान नहीं करते।
संदर्भ लंबाई: अधिकतम गति के लिए छोटे संदर्भ (8K-16K) का उपयोग करें। लंबे संदर्भ SSM की दक्षता लाभ को घटाते हैं।
टेम्परेचर सेटिंग्स: कम तापमान (0.1-0.3) अनिश्चितता कम करके इंफरेंस स्पीड को अधिकतम करते हैं।
बैच आकार: कई समवर्ती अनुरोधों के लिए बहु-GPU के बजाय बैच साइज बढ़ाएँ।
लाइसेंस अनुपालन: उत्पादन परिनियोजन से पहले व्यावसायिक लाइसेंसिंग आवश्यकताओं के लिए Liquid AI से सत्यापित करें।
समस्या निवारण
ImportError: liquid_transformers
इंस्टॉल करें: pip install git+https://github.com/LiquidAI-project/liquid-transformers.git
धीमी शुरुआत
पूर्व-डाउनलोड: huggingface-cli download liquid-ai/LFM2-24B-A2B
OutOfMemoryError
क्वांटाइज़्ड संस्करण का उपयोग करें या घटाएँ max-model-len
कम गुणवत्ता वाले उत्तर
लाइसेंस प्रतिबंधों की जाँच करें — कुछ मॉडल संस्करणों की सीमित क्षमताएँ हो सकती हैं
SSM लेयर त्रुटियाँ
transformers अपडेट करें: pip install transformers>=4.45.0
प्रदर्शन तुलना
Llama 3.2 3B
3B
~6GB
~280 टोक/सेक
Qwen2.5 7B
7B
~14GB
~180 टोक/सेक
LFM2-24B-A2B
2B
~6GB
~350 टोक/सेक
Mistral 7B
7B
~14GB
~200 टोक/सेक
Phi-3.5 3.8B
3.8B
~8GB
~250 टोक/सेक
LFM2-24B-A2B अपनी श्रेणी में सर्वश्रेष्ठ स्पीड-पर-VRAM अनुपात प्राप्त करता है।
संसाधन
Last updated
Was this helpful?