LFM2-24B-A2B

Despliega LFM2-24B-A2B de Liquid AI en Clore.ai: arquitectura híbrida SSM+Attention con 24B totales / 2B activos de parámetros

LFM2-24B-A2B representa un avance en la modelación de lenguaje eficiente gracias al híbrido de Liquid AI Modelo de Espacio de Estado + Atención arquitectura. Con 24B parámetros totales pero solo 2B activos por token, ofrece un rendimiento impresionante mientras requiere únicamente ~6GB de VRAM para inferencia FP16. El modelo alcanza ~350 tok/s en RTX 4090, lo que lo convierte en uno de los modelos de lenguaje grandes más rápidos disponibles.

De un vistazo

  • Tamaño del modelo: 24B totales / 2B parámetros activos (híbrido SSM+Atención)

  • Licencia: Licencia Abierta de Liquid AI (uso no comercial gratuito, licencia comercial disponible)

  • Contexto: 32K tokens

  • Rendimiento: Competitivo con modelos densos de 7B-13B

  • VRAM: ~6GB FP16, ~3GB INT8

  • Velocidad: ~350 tok/s en RTX 4090, ~200 tok/s en RTX 3090

¿Por qué LFM2-24B-A2B?

Arquitectura revolucionaria: LFM2-24B-A2B combina Modelos de Espacio de Estado (SSM) con mecanismos de atención selectiva. Los SSM manejan el procesamiento secuencial de forma eficiente mientras que las capas de atención se centran en el razonamiento complejo. Este enfoque híbrido logra la calidad de modelos grandes con la eficiencia de modelos pequeños.

Velocidad excepcional: El diseño de 2B parámetros activos permite una inferencia ultrarrápida. A diferencia de los modelos tradicionales donde se activan todos los parámetros, LFM2 activa selectivamente solo los componentes necesarios, resultando en más de 350 tokens/segundo en hardware de consumo.

Eficiencia de memoria: Con solo 6GB de VRAM para FP16, LFM2-24B-A2B funciona cómodamente en GPUs de gama media. Esto lo hace ideal para despliegue en el borde, entornos de desarrollo y configuraciones de producción conscientes del costo.

Innovación de Liquid AI: Desarrollado por Liquid AI (fundada por investigadores del MIT), LFM2 representa investigación de vanguardia en arquitectura neuronal. El diseño híbrido SSM+Atención podría ser el futuro de la modelación de lenguaje eficiente.

Nota sobre licencia: La Licencia Abierta de Liquid AI permite el uso no comercial gratuito. El despliegue comercial requiere una licencia separada de Liquid AI. Esto es no MIT — verifique los términos de la licencia antes de usar en producción.

Recomendaciones de GPU

GPU
VRAM
Rendimiento
Costo diario*

RTX 3060 12GB

12GB

~180 tok/s

~$0.80

RTX 3070

8GB

~220 tok/s

~$0.90

RTX 4060 Ti

16GB

~300 tok/s

~$1.20

RTX 4090

24GB

~350 tok/s

~$2.10

RTX 3090

24GB

~200 tok/s

~$1.10

A100 40GB

40GB

~400 tok/s

~$3.50

Mejor relación calidad-precio: RTX 4060 Ti 16GB ofrece un excelente rendimiento por dólar. Velocidad máxima: RTX 4090 libera todo el potencial de LFM2.

*Precios estimados del mercado Clore.ai

Despliegue con vLLM

Instalar vLLM

Configuración de GPU única

Consultar el servidor

Despliegue con Ollama

Ollama ofrece la ruta de despliegue más sencilla:

Uso de la API de Ollama

Plantilla Docker

Construir y ejecutar:

Prueba de velocidad

Prueba la excepcional velocidad de inferencia de LFM2:

Cuantización para menor VRAM

Para GPUs con VRAM limitada, use versiones cuantizadas:

Cuantización GPTQ

Cuantización AWQ

Configuración avanzada

Configuración optimizada para memoria

Para GPUs de 8GB:

Configuración de alto rendimiento

Para cargas de trabajo de producción:

Beneficios de la arquitectura SSM

El híbrido SSM+Atención de LFM2 ofrece ventajas únicas:

Escalado lineal: Los SSM escalan linealmente con la longitud de la secuencia, mientras que los transformers tradicionales escalan cuadráticamente. Esto permite un procesamiento eficiente de contextos largos.

Atención selectiva: Solo los tokens críticos activan mecanismos de atención completos, reduciendo la sobrecarga computacional.

Eficiencia de memoria: El diseño de 2B parámetros activos significa que la mayoría de los 24B parámetros permanecen inactivos durante la inferencia, reduciendo drásticamente los requisitos de ancho de banda de memoria.

Procesamiento secuencial rápido: Los SSM sobresalen en tareas secuenciales como la generación de texto, logrando mayor rendimiento que los mecanismos basados únicamente en atención.

Consejos para usuarios de Clore.ai

  • Enfoque en GPU única: LFM2-24B-A2B está optimizado para despliegue en una sola GPU. Las configuraciones con múltiples GPUs no ofrecen beneficios significativos.

  • Longitud de contexto: Use contextos más cortos (8K-16K) para máxima velocidad. Contextos más largos reducen la ventaja de eficiencia de los SSM.

  • Ajustes de temperatura: Temperaturas más bajas (0.1-0.3) maximizan la velocidad de inferencia al reducir la incertidumbre.

  • Tamaño de lote: Aumente el tamaño de lote para múltiples solicitudes concurrentes en lugar de usar varias GPUs.

  • Cumplimiento de licencia: Verifique los requisitos de licencia comercial con Liquid AI antes del despliegue en producción.

Solución de problemas

Problema
Solución

ImportError: liquid_transformers

Instalar: pip install git+https://github.com/LiquidAI-project/liquid-transformers.git

Inicio lento

Pre-descargar: huggingface-cli download liquid-ai/LFM2-24B-A2B

OutOfMemoryError

Use la versión cuantizada o reduzca max-model-len

Respuestas de mala calidad

Verifique las restricciones de licencia: algunas versiones del modelo tienen capacidades limitadas

Errores en la capa SSM

Actualizar transformers: pip install transformers>=4.45.0

Comparación de rendimiento

Modelo
Parámetros activos
VRAM (FP16)
Velocidad (RTX 4090)

Llama 3.2 3B

3B

~6GB

~280 tok/s

Qwen2.5 7B

7B

~14GB

~180 tok/s

LFM2-24B-A2B

2B

~6GB

~350 tok/s

Mistral 7B

7B

~14GB

~200 tok/s

Phi-3.5 3.8B

3.8B

~8GB

~250 tok/s

LFM2-24B-A2B logra la mejor relación velocidad/VRAM en su categoría.

Recursos

Última actualización

¿Te fue útil?