LFM2-24B-A2B

Liquid AI द्वारा LFM2-24B-A2B को Clore.ai पर तैनात करें — 24B कुल / 2B सक्रिय पैरामीटर के साथ हाइब्रिड SSM+Attention आर्किटेक्चर

LFM2-24B-A2B द्रव AI (Liquid AI) के हाइब्रिड के माध्यम से कुशल भाषा मॉडलिंग में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। स्टेट स्पेस मॉडल + अटेंशन आर्किटेक्चर। कुल 24B पैरामीटर होने पर प्रत्येक टोकन पर केवल 2B सक्रिय पैरामीटर होने के कारण यह प्रभावशाली प्रदर्शन देता है और FP16 इंफरेंस के लिए केवल ~6GB VRAM की आवश्यकता होती है। यह मॉडल RTX 4090 पर ~350 टोक/सेकंड प्राप्त करता है, जिससे यह उपलब्ध तेज़ बड़े भाषा मॉडलों में से एक बनता है।

संक्षेप में

  • मॉडल आकार: 24B कुल / 2B सक्रिय पैरामीटर (हाइब्रिड SSM+Attention)

  • लाइसेंस: Liquid AI ओपन लाइसेंस (गैर-व्यावसायिक नि:शुल्क, व्यावसायिक लाइसेंस उपलब्ध)

  • संदर्भ: 32K टोकन

  • प्रदर्शन: 7B-13B डेंस मॉडलों के साथ प्रतिस्पर्धी

  • VRAM: ~6GB FP16, ~3GB INT8

  • गति: RTX 4090 पर ~350 टोक/सेक, RTX 3090 पर ~200 टोक/सेक

क्यों LFM2-24B-A2B?

क्रांतिकारी आर्किटेक्चर: LFM2-24B-A2B स्टेट स्पेस मॉडलों (SSMs) को चयनात्मक अटेंशन मैकेनिज्म के साथ जोड़ता है। SSM अनुक्रमिक प्रसंस्करण को कुशलता से संभालते हैं जबकि अटेंशन लेयर्स जटिल तर्क पर ध्यान केंद्रित करती हैं। यह हाइब्रिड दृष्टिकोण छोटे मॉडल की दक्षता के साथ बड़े मॉडल की गुणवत्ता प्राप्त करता है।

उत्कृष्ट गति: 2B सक्रिय पैरामीटर डिज़ाइन तीव्र-गति वाला इंफरेंस सक्षम करता है। पारंपरिक मॉडलों के विपरीत जहाँ सभी पैरामीटर सक्रिय होते हैं, LFM2 केवल आवश्यक घटकों को ही चयनित रूप से सक्रिय करता है, जिसके परिणामस्वरूप उपभोक्ता हार्डवेयर पर 350+ टोकन/सेकंड मिलता है।

मेमोरी कुशल: केवल 6GB FP16 VRAM होने पर, LFM2-24B-A2B मध्यम श्रेणी के GPU पर आराम से चलता है। यह इसे एज पर परिनियोजन, विकास परिवेशों और लागत-सचेत उत्पादन सेटअप के लिए आदर्श बनाता है।

Liquid AI नवाचार: Liquid AI (जिसकी स्थापना MIT शोधकर्ताओं ने की थी) द्वारा विकसित, LFM2 न्यूरल आर्किटेक्चर में अत्याधुनिक अनुसंधान का प्रतिनिधित्व करता है। हाइब्रिड SSM+Attention डिज़ाइन कुशल भाषा मॉडलिंग का भविष्य हो सकता है।

लाइसेंसिंग नोट: Liquid AI ओपन लाइसेंस गैर-व्यावसायिक उपयोग की अनुमति देता है। व्यावसायिक परिनियोजन के लिए Liquid AI से अलग लाइसेंस की आवश्यकता होती है। यह नहीं MIT — उत्पादन उपयोग से पहले लाइसेंस की शर्तों की पुष्टि करें।

GPU सिफारिशें

GPU
VRAM
प्रदर्शन
दैनिक लागत*

RTX 3060 12GB

12GB

~180 टोक/सेक

~$0.80

RTX 3070

8GB

~220 टोक/सेक

~$0.90

RTX 4060 Ti

16GB

~300 टोक/सेक

~$1.20

RTX 4090

24GB

~350 टोक/सेक

~$2.10

RTX 3090

24GB

~200 टोक/सेक

~$1.10

A100 40GB

40GB

~400 टोक/सेक

~$3.50

सर्वोत्तम मूल्य: RTX 4060 Ti 16GB प्रति डॉलर उत्कृष्ट प्रदर्शन प्रदान करता है। अधिकतम गति: RTX 4090 LFM2 की पूरी क्षमता जारी करता है।

*Clore.ai मार्केटप्लेस कीमतों का अनुमानित मान

vLLM के साथ परिनियोजित करें

vLLM इंस्टॉल करें

सिंगल GPU सेटअप

सर्वर से प्रश्न पूछें

Ollama के साथ परिनियोजित करें

Ollama सबसे सरल परिनियोजन मार्ग प्रदान करता है:

Ollama API उपयोग

डॉकर टेम्पलेट

बिल्ड और चलाएँ:

गति बेंचमार्क

LFM2 की असाधारण इंफरेंस गति का परीक्षण करें:

कम VRAM के लिए क्वांटाइज़ेशन

सीमित VRAM वाले GPU के लिए, क्वांटाइज़्ड संस्करणों का उपयोग करें:

GPTQ क्वांटाइज़ेशन

AWQ क्वांटाइज़ेशन

उन्नत विन्यास

मेमोरी-अनुकूलित सेटअप

8GB GPU के लिए:

उच्च-थ्रूपुट सेटअप

उत्पादन वर्कलोड के लिए:

SSM आर्किटेक्चर लाभ

LFM2 का हाइब्रिड SSM+Attention अनूठे लाभ प्रदान करता है:

रैखिक स्केलिंग: SSM अनुक्रम लंबाई के साथ रैखिक रूप से स्केल करते हैं, जबकि पारंपरिक ट्रांसफॉर्मर द्विघात रूप से स्केल करते हैं। यह लंबे-संदर्भ प्रसंस्करण को कुशल बनाता है।

चयनात्मक अटेंशन: केवल महत्वपूर्ण टोकन ही पूर्ण अटेंशन मैकेनिज्म को सक्रिय करते हैं, जिससे गणनात्मक ओवरहेड कम होता है।

मेमोरी दक्षता: 2B सक्रिय पैरामीटर डिज़ाइन का अर्थ है कि 24B में से अधिकांश पैरामीटर इंफरेंस के दौरान निष्क्रिय रहते हैं, जिससे मेमोरी बैंडविड्थ आवश्यकताएँ काफी घट जाती हैं।

तेज़ अनुक्रमिक प्रसंस्करण: SSM पाठ जनरेशन जैसे अनुक्रमिक कार्यों में उत्कृष्ट हैं, और शुद्ध अटेंशन मैकेनिज्म की तुलना में अधिक थ्रूपुट प्राप्त करते हैं।

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  • सिंगल GPU केंद्रित: LFM2-24B-A2B सिंगल-GPU परिनियोजन के लिए अनुकूलित है। मल्टी-GPU सेटअप महत्वपूर्ण लाभ प्रदान नहीं करते।

  • संदर्भ लंबाई: अधिकतम गति के लिए छोटे संदर्भ (8K-16K) का उपयोग करें। लंबे संदर्भ SSM की दक्षता लाभ को घटाते हैं।

  • टेम्परेचर सेटिंग्स: कम तापमान (0.1-0.3) अनिश्चितता कम करके इंफरेंस स्पीड को अधिकतम करते हैं।

  • बैच आकार: कई समवर्ती अनुरोधों के लिए बहु-GPU के बजाय बैच साइज बढ़ाएँ।

  • लाइसेंस अनुपालन: उत्पादन परिनियोजन से पहले व्यावसायिक लाइसेंसिंग आवश्यकताओं के लिए Liquid AI से सत्यापित करें।

समस्या निवारण

समस्या
समाधान

ImportError: liquid_transformers

इंस्टॉल करें: pip install git+https://github.com/LiquidAI-project/liquid-transformers.git

धीमी शुरुआत

पूर्व-डाउनलोड: huggingface-cli download liquid-ai/LFM2-24B-A2B

OutOfMemoryError

क्वांटाइज़्ड संस्करण का उपयोग करें या घटाएँ max-model-len

कम गुणवत्ता वाले उत्तर

लाइसेंस प्रतिबंधों की जाँच करें — कुछ मॉडल संस्करणों की सीमित क्षमताएँ हो सकती हैं

SSM लेयर त्रुटियाँ

transformers अपडेट करें: pip install transformers>=4.45.0

प्रदर्शन तुलना

मॉडल
सक्रिय पैरामीटर
VRAM (FP16)
गति (RTX 4090)

Llama 3.2 3B

3B

~6GB

~280 टोक/सेक

Qwen2.5 7B

7B

~14GB

~180 टोक/सेक

LFM2-24B-A2B

2B

~6GB

~350 टोक/सेक

Mistral 7B

7B

~14GB

~200 टोक/सेक

Phi-3.5 3.8B

3.8B

~8GB

~250 टोक/सेक

LFM2-24B-A2B अपनी श्रेणी में सर्वश्रेष्ठ स्पीड-पर-VRAM अनुपात प्राप्त करता है।

संसाधन

Last updated

Was this helpful?