LFM2-24B-A2B

Déployer LFM2-24B-A2B par Liquid AI sur Clore.ai — architecture hybride SSM+Attention avec 24B paramètres au total / 2B paramètres actifs

LFM2-24B-A2B représente une percée dans la modélisation linguistique efficace grâce à l'approche hybride de Liquid AI Modèle d'espace d'état + Attention architecture. Avec 24 milliards de paramètres au total mais seulement 2 milliards actifs par jeton, il offre des performances impressionnantes tout en ne nécessitant qu'environ 6 Go de VRAM pour l'inférence en FP16. Le modèle atteint ~350 tok/s sur RTX 4090, ce qui en fait l'un des modèles de grande taille les plus rapides disponibles.

En un coup d'œil

  • Taille du modèle: 24B au total / 2B paramètres actifs (hybride SSM+Attention)

  • Licence: Licence ouverte Liquid AI (gratuit pour un usage non commercial, licence commerciale disponible)

  • Contexte: 32K jetons

  • Performance: Concurrent avec des modèles denses 7B-13B

  • VRAM: ~6GB FP16, ~3GB INT8

  • Vitesse: ~350 tok/s sur RTX 4090, ~200 tok/s sur RTX 3090

Pourquoi LFM2-24B-A2B ?

Architecture révolutionnaire: LFM2-24B-A2B combine des modèles d'espace d'état (SSM) avec des mécanismes d'attention sélective. Les SSM gèrent le traitement séquentiel efficacement tandis que les couches d'attention se concentrent sur le raisonnement complexe. Cette approche hybride atteint la qualité des grands modèles avec l'efficacité des petits modèles.

Vitesse exceptionnelle: La conception avec 2B de paramètres actifs permet une inférence ultra-rapide. Contrairement aux modèles traditionnels où tous les paramètres s'activent, LFM2 n'engage sélectivement que les composants nécessaires, aboutissant à plus de 350 tokens/seconde sur du matériel grand public.

Mémoire efficace: Avec seulement 6GB de VRAM en FP16, LFM2-24B-A2B fonctionne confortablement sur des GPU de milieu de gamme. Cela le rend idéal pour le déploiement en périphérie, les environnements de développement et les configurations de production soucieuses des coûts.

Innovation Liquid AI: Développé par Liquid AI (fondée par des chercheurs du MIT), LFM2 représente une recherche de pointe en architecture neuronale. La conception hybride SSM+Attention pourrait être l'avenir de la modélisation linguistique efficace.

Note sur la licence: La Licence Ouverte Liquid AI permet une utilisation non commerciale gratuite. Le déploiement commercial nécessite une licence séparée de Liquid AI. Ceci est pas MIT — vérifiez les conditions de licence avant une utilisation en production.

Recommandations GPU

GPU
VRAM
Performance
Coût journalier*

RTX 3060 12GB

12GB

~180 tok/s

~$0.80

RTX 3070

8GB

~220 tok/s

~$0.90

RTX 4060 Ti

16GB

~300 tok/s

~$1.20

RTX 4090

24GB

~350 tok/s

~$2.10

RTX 3090

24GB

~200 tok/s

~$1.10

A100 40 Go

40GB

~400 tok/s

~$3.50

Meilleur rapport qualité-prix: RTX 4060 Ti 16GB offre d'excellentes performances par dollar. Vitesse maximale: RTX 4090 libère le plein potentiel de LFM2.

*Prix estimés du marché Clore.ai

Déployer avec vLLM

Installer vLLM

Configuration GPU unique

Interroger le serveur

Déployer avec Ollama

Ollama fournit le chemin de déploiement le plus simple :

Utilisation de l'API Ollama

Modèle Docker

Construire et exécuter :

Benchmark de vitesse

Testez la vitesse d'inférence exceptionnelle de LFM2 :

Quantification pour réduire la VRAM

Pour les GPU ayant une VRAM limitée, utilisez des versions quantifiées :

Quantification GPTQ

Quantification AWQ

Configuration avancée

Configuration optimisée pour la mémoire

Pour les GPU 8GB :

Configuration haut débit

Pour les charges de production :

Avantages de l'architecture SSM

L'hybride SSM+Attention de LFM2 offre des avantages uniques :

Évolutivité linéaire: Les SSM s'échelonnent linéairement avec la longueur de la séquence, tandis que les transformeurs traditionnels s'échelonnent de manière quadratique. Cela permet un traitement efficace des longs contextes.

Attention sélective: Seuls les jetons critiques déclenchent les mécanismes d'attention complets, réduisant la charge de calcul.

Efficacité mémoire: La conception avec 2B de paramètres actifs signifie que la plupart des 24B paramètres restent dormants pendant l'inférence, réduisant drastiquement les besoins en bande passante mémoire.

Traitement séquentiel rapide: Les SSM excellent dans les tâches séquentielles comme la génération de texte, atteignant un débit plus élevé que les mécanismes purement basés sur l'attention.

Conseils pour les utilisateurs de Clore.ai

  • Orientation GPU unique: LFM2-24B-A2B est optimisé pour le déploiement sur un seul GPU. Les configurations multi-GPU n'apportent pas d'avantages significatifs.

  • Longueur du contexte: Utilisez des contextes plus courts (8K-16K) pour une vitesse maximale. Les contextes plus longs réduisent l'avantage d'efficacité des SSM.

  • Paramètres de température: Des températures plus basses (0.1-0.3) maximisent la vitesse d'inférence en réduisant l'incertitude.

  • Taille de lot: Augmentez la taille des lots pour plusieurs requêtes simultanées plutôt que d'utiliser plusieurs GPU.

  • Conformité de la licence: Vérifiez les exigences de licence commerciale avec Liquid AI avant le déploiement en production.

Dépannage

Problème
Solution

ImportError : liquid_transformers

Installer : pip install git+https://github.com/LiquidAI-project/liquid-transformers.git

Démarrage lent

Pré-télécharger : huggingface-cli download liquid-ai/LFM2-24B-A2B

Erreur OutOfMemory

Utilisez la version quantifiée ou réduisez max-model-len

Réponses de mauvaise qualité

Vérifiez les restrictions de licence — certaines versions du modèle ont des capacités limitées

Erreurs de couche SSM

Mettre à jour transformers : pip install transformers>=4.45.0

Comparaison de performance

Modèle
Paramètres actifs
VRAM (FP16)
Vitesse (RTX 4090)

Llama 3.2 3B

3B

~6GB

~280 tok/s

Qwen2.5 7B

7B

~14GB

~180 tok/s

LFM2-24B-A2B

2B

~6GB

~350 tok/s

Mistral 7B

7B

~14GB

~200 tok/s

Phi-3.5 3.8B

3.8B

~8GB

~250 tok/s

LFM2-24B-A2B obtient le meilleur ratio vitesse-par-VRAM de sa catégorie.

Ressources

Mis à jour

Ce contenu vous a-t-il été utile ?