LFM2-24B-A2B

LFM2-24B-A2B von Liquid AI auf Clore.ai bereitstellen — hybride SSM+Attention-Architektur mit 24B Gesamt- / 2B aktiven Parametern

LFM2-24B-A2B stellt einen Durchbruch in effizienter Sprachmodellierung durch Liquid AIs hybriden Zustandsraummodell + Attention Architektur dar. Mit 24B Gesamtparametern, aber nur 2B aktiven pro Token, liefert es beeindruckende Leistung und benötigt nur ca. 6 GB VRAM für FP16-Inferenz. Das Modell erreicht ca. 350 Tok/s auf einer RTX 4090 und gehört damit zu den schnellsten verfügbaren großen Sprachmodellen.

Auf einen Blick

  • Modellgröße: 24B insgesamt / 2B aktive Parameter (hybrides SSM+Attention)

  • Lizenz: Liquid AI Open License (kostenlos für nicht-kommerzielle Nutzung, kommerzielle Lizenz erhältlich)

  • Kontext: 32K Tokens

  • Leistung: Wettbewerbsfähig mit 7B–13B dichten Modellen

  • VRAM: ~6GB FP16, ~3GB INT8

  • Geschwindigkeit: ~350 tok/s auf RTX 4090, ~200 tok/s auf RTX 3090

Warum LFM2-24B-A2B?

Revolutionäre Architektur: LFM2-24B-A2B kombiniert Zustandsraummodelle (SSMs) mit selektiven Attention-Mechanismen. SSMs verarbeiten Sequenzen effizient, während Attention-Schichten sich auf komplexes Schlussfolgern konzentrieren. Dieser hybride Ansatz erreicht die Qualität großer Modelle bei der Effizienz kleiner Modelle.

Außergewöhnliche Geschwindigkeit: Das Design mit 2B aktiven Parametern ermöglicht blitzschnelle Inferenz. Im Gegensatz zu traditionellen Modellen, bei denen alle Parameter aktiviert werden, aktiviert LFM2 selektiv nur die notwendigen Komponenten, was zu über 350 Tokens/Sekunde auf Consumer-Hardware führt.

Speichereffizient: Mit nur 6 GB VRAM für FP16 läuft LFM2-24B-A2B problemlos auf GPUs der Mittelklasse. Dadurch eignet es sich ideal für Edge-Deployments, Entwicklungsumgebungen und kostenbewusste Produktionsumgebungen.

Liquid AI Innovation: Entwickelt von Liquid AI (gegründet von MIT-Forschern) repräsentiert LFM2 Spitzenforschung in neuronalen Architekturen. Das hybride SSM+Attention-Design könnte die Zukunft effizienter Sprachmodellierung sein.

Lizenzhinweis: Die Liquid AI Open License erlaubt kostenlose nicht-kommerzielle Nutzung. Kommerzielle Bereitstellung erfordert eine separate Lizenz von Liquid AI. Dies ist nicht MIT — überprüfen Sie die Lizenzbedingungen vor dem produktiven Einsatz.

GPU-Empfehlungen

GPU
VRAM
Leistung
Tägliche Kosten*

RTX 3060 12GB

12GB

~180 tok/s

~$0.80

RTX 3070

8GB

~220 tok/s

~$0.90

RTX 4060 Ti

16GB

~300 tok/s

~$1.20

RTX 4090

24GB

~350 tok/s

~$2.10

RTX 3090

24GB

~200 tok/s

~$1.10

A100 40GB

40GB

~400 tok/s

~$3.50

Bestes Preis-Leistungs-Verhältnis: RTX 4060 Ti 16GB bietet ausgezeichnete Performance pro Dollar. Maximale Geschwindigkeit: RTX 4090 entfesselt LFM2s volles Potenzial.

*Geschätzte Clore.ai-Marktplatzpreise

Bereitstellung mit vLLM

vLLM installieren

Einzel-GPU-Konfiguration

Den Server abfragen

Bereitstellung mit Ollama

Ollama bietet den einfachsten Bereitstellungsweg:

Ollama API Verwendung

Docker-Vorlage

Bauen und ausführen:

Geschwindigkeits-Benchmark

Testen Sie LFM2s außergewöhnliche Inferenzgeschwindigkeit:

Quantisierung für geringeren VRAM

Für GPUs mit begrenztem VRAM verwenden Sie quantisierte Versionen:

GPTQ-Quantisierung

AWQ-Quantisierung

Erweiterte Konfiguration

Speicheroptimierte Einrichtung

Für 8GB-GPUs:

High-Throughput-Einrichtung

Für Produktions-Workloads:

Vorteile der SSM-Architektur

LFM2s hybrides SSM+Attention bietet einzigartige Vorteile:

Lineare Skalierung: SSMs skalieren linear mit der Sequenzlänge, während traditionelle Transformer quadratisch skalieren. Dies ermöglicht effiziente Verarbeitung langer Kontexte.

Selektive Attention: Nur kritische Tokens lösen die vollständigen Attention-Mechanismen aus, was den Rechenaufwand reduziert.

Speichereffizienz: Das Design mit 2B aktiven Parametern bedeutet, dass die meisten der 24B Parameter während der Inferenz inaktiv bleiben und dadurch die Anforderungen an die Speicherbandbreite drastisch reduzieren.

Schnelle sequenzielle Verarbeitung: SSMs eignen sich besonders für sequenzielle Aufgaben wie Textgenerierung und erreichen höhere Durchsatzraten als reine Attention-Mechanismen.

Tipps für Clore.ai-Benutzer

  • Fokus auf einzelne GPU: LFM2-24B-A2B ist für die Bereitstellung auf einer einzelnen GPU optimiert. Multi-GPU-Setups bieten keine signifikanten Vorteile.

  • Kontextlänge: Verwenden Sie kürzere Kontexte (8K–16K) für maximale Geschwindigkeit. Längere Kontexte verringern den Effizienzvorteil der SSMs.

  • Temperatureinstellungen: Niedrigere Temperaturen (0.1–0.3) maximieren die Inferenzgeschwindigkeit, indem sie die Unsicherheit reduzieren.

  • Batchgröße: Erhöhen Sie die Batchgröße für mehrere gleichzeitige Anfragen, anstatt mehrere GPUs zu verwenden.

  • Lizenzkonformität: Überprüfen Sie die kommerziellen Lizenzanforderungen mit Liquid AI vor dem Produktionseinsatz.

Fehlerbehebung

Problem
Lösung

ImportError: liquid_transformers

Installieren: pip install git+https://github.com/LiquidAI-project/liquid-transformers.git

Langsamer Start

Vorab herunterladen: huggingface-cli download liquid-ai/LFM2-24B-A2B

OutOfMemoryError

Verwenden Sie die quantisierte Version oder reduzieren Sie max-model-len

Schlechte Antwortqualität

Überprüfen Sie Lizenzbeschränkungen — einige Modellversionen haben eingeschränkte Fähigkeiten

SSM-Schicht-Fehler

Transformers aktualisieren: pip install transformers>=4.45.0

Leistungsvergleich

Modell
Aktive Parameter
VRAM (FP16)
Geschwindigkeit (RTX 4090)

Llama 3.2 3B

3B

~6GB

~280 tok/s

Qwen2.5 7B

7B

~14GB

~180 tok/s

LFM2-24B-A2B

2B

~6GB

~350 tok/s

Mistral 7B

7B

~14GB

~200 tok/s

Phi-3.5 3.8B

3.8B

~8GB

~250 tok/s

LFM2-24B-A2B erzielt das beste Speed-per-VRAM-Verhältnis in seiner Klasse.

Ressourcen

Zuletzt aktualisiert

War das hilfreich?