Llama 4 (Scout & Maverick)

Запускайте модели Meta Llama 4 Scout & Maverick MoE на GPU Clore.ai

Llama 4 от Meta, выпущенная в апреле 2025 года, обозначает фундаментальный сдвиг к архитектуре Mixture of Experts (MoE) вместо активации всех параметров для каждого токена Llama 4 направляет каждый токен к специализированным подсетям «экспертов» — обеспечивая передовую производительность при доле вычислительных затрат. Доступны две модели с открытыми весами: Scout (идеально для одного GPU) и Maverick (мощная многопроцессорная модель).

Ключевые особенности

  • Архитектура MoE: только 17B параметров активны на токен (из 109B/400B всего)

  • Огромные контекстные окна: Scout поддерживает 10M токенов, Maverick поддерживает 1M токенов

  • Нативно мультимодальная: понимает и текст, и изображения «из коробки»

  • Две модели: Scout (16 экспертов, дружелюбна к одному GPU) и Maverick (128 экспертов, для нескольких GPU)

  • Конкурентная производительность: Scout соответствует Gemma 3 27B; Maverick конкурирует с моделями класса GPT-4o

  • Открытые веса: Лицензия Llama Community (бесплатно для большинства коммерческих применений)

Варианты моделей

Модель
Всего параметров
Активные параметры
Эксперты
Контекст
Мин. VRAM (Q4)
Мин. VRAM (FP16)

Scout

109B

17B

16

10M

12GB

80GB

Maverick

400B

17B

128

1M

48GB (мульти)

320GB (мульти)

Требования

Компонент
Scout (Q4)
Scout (FP16)
Maverick (Q4)

GPU

1× RTX 4090

1× H100

4× RTX 4090

VRAM

24 ГБ

80GB

4×24GB

ОЗУ

32GB

64GB

128GB

Диск

50GB

120GB

250GB

CUDA

11.8+

12.0+

12.0+

Рекомендуемый GPU на Clore.ai: RTX 4090 24GB (~$0.5–2/день) для Scout — лучшее соотношение цены и качества

Быстрый старт с Ollama

Самый быстрый способ запустить Llama 4:

Ollama как сервер API

Настройка vLLM (Production)

Для производственных нагрузок с более высоким пропускным способностью:

Запрос к vLLM серверу

HuggingFace Transformers

Быстрый старт с Docker

Почему MoE важна на Clore.ai

Традиционные плотные модели (например, Llama 3.3 70B) требуют огромного объёма VRAM, потому что все 70B параметров активны. У Llama 4 Scout всего 109B параметров, но активируется только 17B на токен — что означает:

  • Та же качество, что и у плотных моделей 70B+ при значительно меньших затратах VRAM

  • Вмещается на одном RTX 4090 в режиме квантизации

  • Контекст 10M токенов — обрабатывайте целые кодовые базы, длинные документы, книги

  • Дешевле арендовать — $0.5–2/день вместо $6–12/день для моделей 70B

Советы для пользователей Clore.ai

  • Начните со Scout Q4: Лучшее соотношение цены и качества на RTX 4090 — $0.5–2/день, покрывает 95% случаев использования

  • Используйте --max-model-len мудро: Не устанавливайте контекст выше, чем нужно — это резервирует VRAM. Начните с 8192, увеличивайте по мере необходимости

  • Тензорный параллелизм для Maverick: Арендуйте машины с 4× RTX 4090 для Maverick; используйте --tensor-parallel-size 4

  • Требуется вход в HuggingFace: huggingface-cli login — сначала вам нужно принять лицензию Llama на HuggingFace

  • Ollama для быстрых тестов, vLLM для производства: Ollama быстрее настраивается; vLLM обеспечивает большую пропускную способность при обслуживании API

  • Мониторинг памяти GPU: watch nvidia-smi — MoE-модели могут резко повышать потребление VRAM на длинных последовательностях

Устранение неполадок

Проблема
Решение

OutOfMemoryError

Уменьшите --max-model-len, используйте квантизацию Q4 или обновите GPU

Сбой загрузки модели

Запустите huggingface-cli login и примите лицензию Llama 4 на hf.co

Медленная генерация

Убедитесь, что используется GPU (nvidia-smi); проверьте --gpu-memory-utilization

vLLM падает при запуске

Уменьшите длину контекста; убедитесь, что установлен CUDA 11.8+

Ollama показывает неправильную модель

Запустите ollama list для проверки; ollama rm + ollama pull для повторной загрузки

Дополнительное чтение

Последнее обновление

Это было полезно?