Mistral Large 3 (675B MoE)

Запускайте Mistral Large 3 — передовую модель 675B MoE с 41B активными параметрами на GPU Clore.ai

Mistral Large 3 — самый мощный модель с открытыми весами от Mistral AI, выпущенная в декабре 2025 года в рамках Лицензия Apache 2.0. Это модель Mixture-of-Experts (MoE) с общим количеством параметров 675B, но с активными только 41B на токен — обеспечивая производительность уровня передового уровня при доле вычислений от плотной модели на 675B. С нативной мультимодальной поддержкой (текст + изображения), контекстным окном 256K и лучшими в классе агентными возможностями она напрямую конкурирует с GPT-4o и моделями класса Claude, оставаясь при этом полностью пригодной для самостоятельного хостинга.

HuggingFace: mistralai/Mistral-Large-3-675B-Instruct-2512arrow-up-right Ollama: mistral-large-3:675barrow-up-right Лицензия: Apache 2.0

Ключевые особенности

  • 675B всего / 41B активных параметров — эффективность MoE означает, что вы получаете передовую производительность без активации всех параметров

  • Лицензия Apache 2.0 — полностью открыта для коммерческого и личного использования, без ограничений

  • Нативно мультимодальна — понимает и текст, и изображения с помощью 2.5B визуального энкодера

  • Контекстное окно 256K — обрабатывает огромные документы, кодовые базы и длинные разговоры

  • Лучшие в классе агентные возможности — нативный вызов функций, режим JSON, использование инструментов

  • Несколько вариантов развёртывания — FP8 на H200/B200, NVFP4 на H100/A100, GGUF-квантование для потребительских GPU

Архитектура модели

Компонент
Детали

Архитектура

Гранулярный Mixture-of-Experts (MoE)

Общее количество параметров

675B

Активные параметры

41B (на токен)

Визуальный энкодер

2.5B параметров

Контекстное окно

256K токенов

Обучение

3 000× H200 GPU

Релиз

Декабрь 2025

Требования

Конфигурация
Бюджет (Q4 GGUF)
Стандарт (NVFP4)
Полный (FP8)

GPU

4× RTX 4090

8× A100 80GB

8× H100/H200

VRAM

4×24GB (96GB)

8×80GB (640GB)

8×80GB (640GB)

ОЗУ

128GB

256GB

256GB

Диск

400GB

700GB

1.4TB

CUDA

12.0+

12.0+

12.0+

Рекомендуемая настройка Clore.ai:

  • Лучшее соотношение цена/качество: 4× RTX 4090 (~$2–8/день) — выполняйте квантование Q4 GGUF через llama.cpp или Ollama

  • Качество для продакшна: 8× A100 80GB (~$16–32/день) — NVFP4 с полным контекстом через vLLM

  • Максимальная производительность: 8× H100 (~$24–48/день) — FP8, полный контекст 256K

Быстрый старт с Ollama

Самый быстрый способ запустить Mistral Large 3 на многогфп Clore.ai-инстансе:

Быстрый старт с vLLM (Продакшн)

Для обслуживания уровня продакшн с совместимым с OpenAI API:

Примеры использования

1. Чат-комплит (совместимый с OpenAI API)

Когда vLLM запущен, используйте любой клиент, совместимый с OpenAI:

2. Вызов функций / Использование инструментов

Mistral Large 3 отлично справляется со структурированным вызовом инструментов:

3. Vision — анализ изображений

Mistral Large 3 нативно понимает изображения:

Советы для пользователей Clore.ai

  1. Начните с NVFP4 на A100 — Репозиторий Mistral-Large-3-675B-Instruct-2512-NVFP4 чекпойнт специально разработан для узлов A100/H100 и обеспечивает почти без потерь качество при вдвое меньшем объёме памяти по сравнению с FP8.

  2. Используйте Ollama для быстрых экспериментов — Если у вас есть инстанс с 4× RTX 4090, Ollama автоматически выполняет GGUF-квантование. Отлично подходит для тестирования перед переходом к vLLM в продакшне.

  3. Безопасно откройте API — При запуске vLLM на инстансе Clore.ai используйте SSH-туннелирование (ssh -L 8000:localhost:8000 root@<ip>) вместо прямого открытия порта 8000.

  4. Понизьте max-model-len чтобы сэкономить VRAM — Если вам не нужен полный контекст 256K, установите --max-model-len 32768 или 65536 чтобы значительно уменьшить использование памяти KV-кеша.

  5. Рассмотрите плотные альтернативы — Для конфигураций с одним GPU Mistral 3 14B (mistral3:14b в Ollama) обеспечивает отличную производительность на одном RTX 4090 и относится к той же семье моделей.

Устранение неполадок

Проблема
Решение

CUDA — недостаточно памяти на vLLM

Уменьшите --max-model-len (попробуйте 32768), увеличьте --tensor-parallel-size, или используйте NVFP4-чекпойнт

Медленная генерация

Убедитесь, что --tensor-parallel-size соответствует количеству ваших GPU; включите спекулятивное декодирование с чекпойнтом Eagle

Ollama не удаётся загрузить 675B

Убедитесь, что у вас есть 96GB+ видеопамяти на всех GPU; Ollama требует OLLAMA_NUM_PARALLEL=1 для больших моделей

tokenizer_mode mistral ошибки

Вы должны передать все три флага: --tokenizer-mode mistral --config-format mistral --load-format mistral

Визион не работает

Убедитесь, что изображения имеют соотношение сторон близкое к 1:1; избегайте очень широких/тонких изображений для наилучших результатов

Загрузка слишком медленная

Используйте huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 с HF_TOKEN установите

Дополнительное чтение

Последнее обновление

Это было полезно?