LFM2-24B-A2B

Разверните LFM2-24B-A2B от Liquid AI на Clore.ai — гибридная архитектура SSM+Attention с 24B общих / 2B активных параметров

LFM2-24B-A2B представляет собой прорыв в эффективном языковом моделировании благодаря гибридному подходу Liquid AI Модель пространств состояний + Attention архитектуре. При 24 млрд параметров в целом, но лишь 2 млрд активных на токен, она демонстрирует впечатляющие показатели, требуя всего около ~6 ГБ видеопамяти для вывода в FP16. Модель достигает примерно 350 ток/с на RTX 4090, что делает её одной из самых быстрых больших языковых моделей.

Кратко

  • Размер модели: 24B всего / 2B активных параметров (гибрид SSM+Attention)

  • Лицензия: Открытая лицензия Liquid AI (бесплатно для некоммерческого использования, доступна коммерческая лицензия)

  • Контекст: 32K токенов

  • Производительность: Конкурентоспособна с плотными моделями 7B-13B

  • Видеопамять: ~6 ГБ FP16, ~3 ГБ INT8

  • Скорость: ~350 ток/с на RTX 4090, ~200 ток/с на RTX 3090

Почему LFM2-24B-A2B?

Революционная архитектура: LFM2-24B-A2B сочетает модели пространств состояний (SSM) с селективными механизмами внимания. SSM эффективно обрабатывают последовательности, в то время как слои внимания фокусируются на сложных рассуждениях. Этот гибридный подход обеспечивает качество крупной модели при эффективности малой.

Исключительная скорость: Конструкция с 2B активных параметров обеспечивает молниеносный вывод. В отличие от традиционных моделей, где активируются все параметры, LFM2 выборочно задействует только необходимые компоненты, что даёт более 350 токенов в секунду на потребительском оборудовании.

Эффективность по памяти: При всего 6 ГБ VRAM для FP16 LFM2-24B-A2B уверенно работает на GPU среднего уровня. Это делает её идеальной для развёртывания на периферии, в средах разработки и для производственных решений с ограниченным бюджетом.

Инновации Liquid AI: Разработанная Liquid AI (основана исследователями MIT), LFM2 представляет передовые исследования в нейронной архитектуре. Гибридный дизайн SSM+Attention может стать будущим эффективного языкового моделирования.

Примечание по лицензированию: Открытая лицензия Liquid AI разрешает бесплатное некоммерческое использование. Коммерческое развёртывание требует отдельной лицензии от Liquid AI. Это не MIT — проверьте условия лицензирования перед использованием в продакшене.

Рекомендации по GPU

GPU
Видеопамять
Производительность
Ежедневная стоимость*

RTX 3060 12GB

12 ГБ

~180 ток/с

~$0.80

RTX 3070

8 ГБ

~220 ток/с

~$0.90

RTX 4060 Ti

16 ГБ

~300 ток/с

~$1.20

RTX 4090

24 ГБ

~350 ток/с

~$2.10

RTX 3090

24 ГБ

~200 ток/с

~$1.10

A100 40GB

40 ГБ

~400 ток/с

~$3.50

Лучшее соотношение цена/производительность: RTX 4060 Ti 16GB предлагает отличную производительность за свои деньги. Максимальная скорость: RTX 4090 раскрывает весь потенциал LFM2.

*Оценочные цены на рынке Clore.ai

Развёртывание с vLLM

Установите vLLM

Настройка для одного GPU

Запрос к серверу

Развёртывание с Ollama

Ollama предоставляет самый простой путь для развёртывания:

Использование Ollama API

Шаблон Docker

Соберите и запустите:

Бенчмарк скорости

Проверьте исключительную скорость вывода LFM2:

Квантование для уменьшения VRAM

Для GPU с ограниченной видеопамятью используйте квантизированные версии:

Квантование GPTQ

Квантование AWQ

Расширенная конфигурация

Настройка с оптимизацией памяти

Для GPU с 8 ГБ:

Настройка для высокой пропускной способности

Для производственных нагрузок:

Преимущества архитектуры SSM

Гибрид SSM+Attention LFM2 предоставляет уникальные преимущества:

Линейное масштабирование: SSM масштабируются линейно по длине последовательности, в то время как традиционные трансформеры масштабируются квадратично. Это обеспечивает эффективную обработку длинного контекста.

Селективное внимание: Только критические токены инициируют полные механизмы внимания, снижая вычислительную нагрузку.

Эффективность по памяти: Конструкция с 2B активных параметров означает, что большая часть из 24B параметров остаётся неактивной во время вывода, что значительно снижает требования к пропускной способности памяти.

Быстрая последовательная обработка: SSM превосходны в последовательных задачах, таких как генерация текста, достигая большей пропускной способности, чем чистые механизмы внимания.

Советы для пользователей Clore.ai

  • Ориентация на один GPU: LFM2-24B-A2B оптимизирована для развёртывания на одном GPU. Мульти-GPU конфигурации не дают значительных преимуществ.

  • Длина контекста: Используйте более короткие контексты (8K-16K) для максимальной скорости. Более длинные контексты уменьшают преимущество эффективности SSM.

  • Настройки температуры: Низкие температуры (0.1-0.3) максимизируют скорость вывода за счёт снижения неопределённости.

  • Размер батча: Увеличивайте размер батча для нескольких параллельных запросов, вместо использования нескольких GPU.

  • Соответствие лицензии: Уточните требования коммерческого лицензирования у Liquid AI перед развёртыванием в продакшене.

Устранение неполадок

Проблема
Решение

ImportError: liquid_transformers

Установите: pip install git+https://github.com/LiquidAI-project/liquid-transformers.git

Медленный запуск

Предварительно загрузите: huggingface-cli download liquid-ai/LFM2-24B-A2B

OutOfMemoryError

Используйте квантизованную версию или уменьшите max-model-len

Низкое качество ответов

Проверьте ограничения лицензии — некоторые версии модели имеют ограниченные возможности

Ошибки слоя SSM

Обновите transformers: pip install transformers>=4.45.0

Сравнение производительности

Модель
Активные параметры
VRAM (FP16)
Скорость (RTX 4090)

Llama 3.2 3B

3B

~6 ГБ

~280 ток/с

Qwen2.5 7B

7B

~14 ГБ

~180 ток/с

LFM2-24B-A2B

2B

~6 ГБ

~350 ток/с

Mistral 7B

7B

~14 ГБ

~200 ток/с

Phi-3.5 3.8B

3.8B

~8 ГБ

~250 ток/с

LFM2-24B-A2B достигает наилучшего соотношения скорость/VRAM в своём классе.

Ресурсы

Последнее обновление

Это было полезно?