LFM2-24B-A2B

Clore.ai पर Liquid AI द्वारा LFM2-24B-A2B तैनात करें — हाइब्रिड SSM+Attention आर्किटेक्चर, कुल 24B / 2B सक्रिय पैरामीटर के साथ

LFM2-24B-A2B द्रव AI (Liquid AI) के हाइब्रिड के माध्यम से कुशल भाषा मॉडलिंग में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। स्टेट स्पेस मॉडल + अटेंशन आर्किटेक्चर। कुल 24B पैरामीटर होने पर प्रत्येक टोकन पर केवल 2B सक्रिय पैरामीटर होने के कारण यह प्रभावशाली प्रदर्शन देता है और FP16 इंफरेंस के लिए केवल ~6GB VRAM की आवश्यकता होती है। यह मॉडल RTX 4090 पर ~350 टोक/सेकंड प्राप्त करता है, जिससे यह उपलब्ध तेज़ बड़े भाषा मॉडलों में से एक बनता है।

संक्षेप में

मॉडल आकार: 24B कुल / 2B सक्रिय पैरामीटर (हाइब्रिड SSM+Attention)
लाइसेंस: Liquid AI ओपन लाइसेंस (गैर-व्यावसायिक नि:शुल्क, व्यावसायिक लाइसेंस उपलब्ध)
संदर्भ: 32K टोकन
प्रदर्शन: 7B-13B डेंस मॉडलों के साथ प्रतिस्पर्धी
VRAM: ~6GB FP16, ~3GB INT8
गति: RTX 4090 पर ~350 टोक/सेक, RTX 3090 पर ~200 टोक/सेक

क्यों LFM2-24B-A2B?

क्रांतिकारी आर्किटेक्चर: LFM2-24B-A2B स्टेट स्पेस मॉडलों (SSMs) को चयनात्मक अटेंशन मैकेनिज्म के साथ जोड़ता है। SSM अनुक्रमिक प्रसंस्करण को कुशलता से संभालते हैं जबकि अटेंशन लेयर्स जटिल तर्क पर ध्यान केंद्रित करती हैं। यह हाइब्रिड दृष्टिकोण छोटे मॉडल की दक्षता के साथ बड़े मॉडल की गुणवत्ता प्राप्त करता है।

उत्कृष्ट गति: 2B सक्रिय पैरामीटर डिज़ाइन तीव्र-गति वाला इंफरेंस सक्षम करता है। पारंपरिक मॉडलों के विपरीत जहाँ सभी पैरामीटर सक्रिय होते हैं, LFM2 केवल आवश्यक घटकों को ही चयनित रूप से सक्रिय करता है, जिसके परिणामस्वरूप उपभोक्ता हार्डवेयर पर 350+ टोकन/सेकंड मिलता है।

मेमोरी कुशल: केवल 6GB FP16 VRAM होने पर, LFM2-24B-A2B मध्यम श्रेणी के GPU पर आराम से चलता है। यह इसे एज पर परिनियोजन, विकास परिवेशों और लागत-सचेत उत्पादन सेटअप के लिए आदर्श बनाता है।

Liquid AI नवाचार: Liquid AI (जिसकी स्थापना MIT शोधकर्ताओं ने की थी) द्वारा विकसित, LFM2 न्यूरल आर्किटेक्चर में अत्याधुनिक अनुसंधान का प्रतिनिधित्व करता है। हाइब्रिड SSM+Attention डिज़ाइन कुशल भाषा मॉडलिंग का भविष्य हो सकता है।

लाइसेंसिंग नोट: Liquid AI ओपन लाइसेंस गैर-व्यावसायिक उपयोग की अनुमति देता है। व्यावसायिक परिनियोजन के लिए Liquid AI से अलग लाइसेंस की आवश्यकता होती है। यह नहीं MIT — उत्पादन उपयोग से पहले लाइसेंस की शर्तों की पुष्टि करें।

GPU सिफारिशें

GPU

VRAM

प्रदर्शन

दैनिक लागत*

RTX 3060 12GB

12GB

~180 टोक/सेक

~$0.80

RTX 3070

8GB

~220 टोक/सेक

~$0.90

RTX 4060 Ti

16GB

~300 टोक/सेक

~$1.20

RTX 4090

24GB

~350 टोक/सेक

~$2.10

RTX 3090

24GB

~200 टोक/सेक

~$1.10

A100 40GB

40GB

~400 टोक/सेक

~$3.50

सर्वोत्तम मूल्य: RTX 4060 Ti 16GB प्रति डॉलर उत्कृष्ट प्रदर्शन प्रदान करता है। अधिकतम गति: RTX 4090 LFM2 की पूरी क्षमता जारी करता है।

*Clore.ai मार्केटप्लेस कीमतों का अनुमानित मान

vLLM के साथ परिनियोजित करें

vLLM इंस्टॉल करें

pip install vllm>=0.6.0
# या नवीनतम
pip install git+https://github.com/vllm-project/vllm.git

सिंगल GPU सेटअप

vllm serve liquid-ai/LFM2-24B-A2B \
  --model liquid-ai/LFM2-24B-A2B \
  --tensor-parallel-size 1 \
  --dtype float16 \
  --max-model-len 32768 \
  --served-model-name lfm2-24b \
  --trust-remote-code \
  --disable-log-stats

सर्वर से प्रश्न पूछें

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1", 
    api_key="EMPTY"
)

response = client.chat.completions.create(
    model="lfm2-24b",
    messages=[
        {"role": "system", "content": "आप तकनीकी व्याख्याओं में विशेषज्ञ एक सहायक AI हैं।"},
        {"role": "user", "content": "State Space Models और पारंपरिक Transformers के बीच अंतर समझाइए"}
    ],
    max_tokens=1024,
    temperature=0.7
)

print(response.choices[0].message.content)

Ollama के साथ परिनियोजित करें

Ollama सबसे सरल परिनियोजन मार्ग प्रदान करता है:

# Ollama इंस्टॉल करें
curl -fsSL https://ollama.com/install.sh | sh

# LFM2 मॉडल पुल करें
ollama pull liquid-ai/lfm2:24b

# इंटरैक्टिव रूप से चलाएं
ollama run liquid-ai/lfm2:24b

# API मोड
ollama serve

Ollama API उपयोग

import requests

# सरल पूर्णता
response = requests.post('http://localhost:11434/api/generate',
    json={
        'model': 'liquid-ai/lfm2:24b',
        'prompt': 'मेमोइज़ेशन का उपयोग करके फ़िबोनैचि संख्याएँ निकालने के लिए एक Python फ़ंक्शन लिखें',
        'stream': False
    }
)

print(response.json()['response'])

# चैट प्रारूप
chat_response = requests.post('http://localhost:11434/api/chat',
    json={
        'model': 'liquid-ai/lfm2:24b',
        'messages': [
            {'role': 'user', 'content': 'क्वांटम एंटैन्गलमेंट को सरल शब्दों में समझाइए'}
        ],
        'stream': False
    }
)

print(chat_response.json()['message']['content'])

डॉकर टेम्पलेट

FROM nvidia/cuda:12.1-devel-ubuntu22.04

# Python 3.10 इंस्टॉल करें
RUN apt-get update && apt-get install -y \
    python3.10 python3-pip curl && \
    rm -rf /var/lib/apt/lists/*

# vLLM इंस्टॉल करें
RUN pip install vllm>=0.6.0 transformers

# परिवेश सेट करें
ENV PYTHONUNBUFFERED=1

# मॉडल पूर्व-डाउनलोड (वैकल्पिक)
# RUN python3 -c "from transformers import AutoModel; AutoModel.from_pretrained('liquid-ai/LFM2-24B-A2B', trust_remote_code=True)"

EXPOSE 8000

CMD ["vllm", "serve", "liquid-ai/LFM2-24B-A2B", \
     "--host", "0.0.0.0", \
     "--port", "8000", \
     "--dtype", "float16", \
     "--max-model-len", "16384", \
     "--trust-remote-code"]

बिल्ड और चलाएँ:

docker build -t lfm2-24b .
docker run --gpus all -p 8000:8000 lfm2-24b

गति बेंचमार्क

LFM2 की असाधारण इंफरेंस गति का परीक्षण करें:

import time
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

def speed_test():
    prompts = [
        "मशीन लर्निंग को एक पैराग्राफ में समझाइए",
        "एक त्वरित Python सॉर्टिंग एल्गोरिथ्म लिखें",
        "नवीकरणीय ऊर्जा के लाभों का विवरण दें",
        "फ्रांस की राजधानी क्या है और यह क्यों महत्वपूर्ण है?",
        "एक सरल HTML पेज संरचना बनाइए"
    ]
    
    total_tokens = 0
    total_time = 0
    
    for prompt in prompts:
        start_time = time.time()
        
        response = client.chat.completions.create(
            model="lfm2-24b",
            messages=[{"role": "user", "content": prompt}],
            max_tokens=200,
            temperature=0.1
        )
        
        end_time = time.time()
        
        tokens = len(response.choices[0].message.content.split())
        duration = end_time - start_time
        
        total_tokens += tokens
        total_time += duration
        
        print(f"Prompt: {prompt[:30]}...")
        print(f"Tokens: {tokens}, Time: {duration:.2f}s, Speed: {tokens/duration:.1f} tok/s\n")
    
    avg_speed = total_tokens / total_time
    print(f"Average speed: {avg_speed:.1f} tokens/second")
    return avg_speed

# गति परीक्षण चलाएँ
speed_test()

कम VRAM के लिए क्वांटाइज़ेशन

सीमित VRAM वाले GPU के लिए, क्वांटाइज़्ड संस्करणों का उपयोग करें:

GPTQ क्वांटाइज़ेशन

# auto-gptq इंस्टॉल करें
pip install auto-gptq

# क्वांटाइज़्ड मॉडल का उपयोग करें (लगभग ~3GB VRAM तक घटाता है)
vllm serve liquid-ai/LFM2-24B-A2B-GPTQ \
  --model liquid-ai/LFM2-24B-A2B-GPTQ \
  --quantization gptq \
  --dtype float16 \
  --max-model-len 16384

AWQ क्वांटाइज़ेशन

# autoawq इंस्टॉल करें
pip install autoawq

# AWQ क्वांटाइज़्ड मॉडल का उपयोग करें
vllm serve liquid-ai/LFM2-24B-A2B-AWQ \
  --model liquid-ai/LFM2-24B-A2B-AWQ \
  --quantization awq \
  --dtype float16

उन्नत विन्यास

मेमोरी-अनुकूलित सेटअप

8GB GPU के लिए:

vllm serve liquid-ai/LFM2-24B-A2B \
  --model liquid-ai/LFM2-24B-A2B \
  --dtype float16 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.85 \
  --swap-space 4 \
  --trust-remote-code

उच्च-थ्रूपुट सेटअप

उत्पादन वर्कलोड के लिए:

vllm serve liquid-ai/LFM2-24B-A2B \
  --model liquid-ai/LFM2-24B-A2B \
  --tensor-parallel-size 1 \
  --max-num-seqs 32 \
  --max-num-batched-tokens 8192 \
  --dtype float16 \
  --trust-remote-code

SSM आर्किटेक्चर लाभ

LFM2 का हाइब्रिड SSM+Attention अनूठे लाभ प्रदान करता है:

रैखिक स्केलिंग: SSM अनुक्रम लंबाई के साथ रैखिक रूप से स्केल करते हैं, जबकि पारंपरिक ट्रांसफॉर्मर द्विघात रूप से स्केल करते हैं। यह लंबे-संदर्भ प्रसंस्करण को कुशल बनाता है।

चयनात्मक अटेंशन: केवल महत्वपूर्ण टोकन ही पूर्ण अटेंशन मैकेनिज्म को सक्रिय करते हैं, जिससे गणनात्मक ओवरहेड कम होता है।

मेमोरी दक्षता: 2B सक्रिय पैरामीटर डिज़ाइन का अर्थ है कि 24B में से अधिकांश पैरामीटर इंफरेंस के दौरान निष्क्रिय रहते हैं, जिससे मेमोरी बैंडविड्थ आवश्यकताएँ काफी घट जाती हैं।

तेज़ अनुक्रमिक प्रसंस्करण: SSM पाठ जनरेशन जैसे अनुक्रमिक कार्यों में उत्कृष्ट हैं, और शुद्ध अटेंशन मैकेनिज्म की तुलना में अधिक थ्रूपुट प्राप्त करते हैं।

Clore.ai उपयोगकर्ताओं के लिए सुझाव

सिंगल GPU केंद्रित: LFM2-24B-A2B सिंगल-GPU परिनियोजन के लिए अनुकूलित है। मल्टी-GPU सेटअप महत्वपूर्ण लाभ प्रदान नहीं करते।
संदर्भ लंबाई: अधिकतम गति के लिए छोटे संदर्भ (8K-16K) का उपयोग करें। लंबे संदर्भ SSM की दक्षता लाभ को घटाते हैं।
टेम्परेचर सेटिंग्स: कम तापमान (0.1-0.3) अनिश्चितता कम करके इंफरेंस स्पीड को अधिकतम करते हैं।
बैच आकार: कई समवर्ती अनुरोधों के लिए बहु-GPU के बजाय बैच साइज बढ़ाएँ।
लाइसेंस अनुपालन: उत्पादन परिनियोजन से पहले व्यावसायिक लाइसेंसिंग आवश्यकताओं के लिए Liquid AI से सत्यापित करें।

समस्या निवारण

समस्या

समाधान

ImportError: liquid_transformers

इंस्टॉल करें: pip install git+https://github.com/LiquidAI-project/liquid-transformers.git

धीमी शुरुआत

पूर्व-डाउनलोड: huggingface-cli download liquid-ai/LFM2-24B-A2B

OutOfMemoryError

क्वांटाइज़्ड संस्करण का उपयोग करें या घटाएँ max-model-len

कम गुणवत्ता वाले उत्तर

लाइसेंस प्रतिबंधों की जाँच करें — कुछ मॉडल संस्करणों की सीमित क्षमताएँ हो सकती हैं

SSM लेयर त्रुटियाँ

transformers अपडेट करें: pip install transformers>=4.45.0

प्रदर्शन तुलना

मॉडल

सक्रिय पैरामीटर

VRAM (FP16)

गति (RTX 4090)

Llama 3.2 3B

~6GB

~280 टोक/सेक

Qwen2.5 7B

~14GB

~180 टोक/सेक

LFM2-24B-A2B

~6GB

~350 टोक/सेक

Mistral 7B

~14GB

~200 टोक/सेक

Phi-3.5 3.8B

3.8B

~8GB

~250 टोक/सेक

LFM2-24B-A2B अपनी श्रेणी में सर्वश्रेष्ठ स्पीड-पर-VRAM अनुपात प्राप्त करता है।

संसाधन

PreviousLing-2.5-1T (1 ट्रिलियन पैरामीटर्स)NextDeepSeek V4 (1T MoE, बहु-माध्यमी)

Last updated 21 days ago

Was this helpful?

hashtagसंक्षेप में

hashtagक्यों LFM2-24B-A2B?

hashtagGPU सिफारिशें

hashtagvLLM के साथ परिनियोजित करें

hashtagvLLM इंस्टॉल करें

hashtagसिंगल GPU सेटअप

hashtagसर्वर से प्रश्न पूछें

hashtagOllama के साथ परिनियोजित करें

hashtagOllama API उपयोग

hashtagडॉकर टेम्पलेट

hashtagगति बेंचमार्क

hashtagकम VRAM के लिए क्वांटाइज़ेशन

hashtagGPTQ क्वांटाइज़ेशन

hashtagAWQ क्वांटाइज़ेशन

hashtagउन्नत विन्यास

hashtagमेमोरी-अनुकूलित सेटअप

hashtagउच्च-थ्रूपुट सेटअप

hashtagSSM आर्किटेक्चर लाभ

hashtagClore.ai उपयोगकर्ताओं के लिए सुझाव

hashtagसमस्या निवारण

hashtagप्रदर्शन तुलना

hashtagसंसाधन