Mistral Large 3 (675B MoE)
Запускайте Mistral Large 3 — передовую модель 675B MoE с 41B активными параметрами на GPU Clore.ai
Mistral Large 3 — самый мощный модель с открытыми весами от Mistral AI, выпущенная в декабре 2025 года в рамках Лицензия Apache 2.0. Это модель Mixture-of-Experts (MoE) с общим количеством параметров 675B, но с активными только 41B на токен — обеспечивая производительность уровня передового уровня при доле вычислений от плотной модели на 675B. С нативной мультимодальной поддержкой (текст + изображения), контекстным окном 256K и лучшими в классе агентными возможностями она напрямую конкурирует с GPT-4o и моделями класса Claude, оставаясь при этом полностью пригодной для самостоятельного хостинга.
HuggingFace: mistralai/Mistral-Large-3-675B-Instruct-2512 Ollama: mistral-large-3:675b Лицензия: Apache 2.0
Ключевые особенности
675B всего / 41B активных параметров — эффективность MoE означает, что вы получаете передовую производительность без активации всех параметров
Лицензия Apache 2.0 — полностью открыта для коммерческого и личного использования, без ограничений
Нативно мультимодальна — понимает и текст, и изображения с помощью 2.5B визуального энкодера
Контекстное окно 256K — обрабатывает огромные документы, кодовые базы и длинные разговоры
Лучшие в классе агентные возможности — нативный вызов функций, режим JSON, использование инструментов
Несколько вариантов развёртывания — FP8 на H200/B200, NVFP4 на H100/A100, GGUF-квантование для потребительских GPU
Архитектура модели
Архитектура
Гранулярный Mixture-of-Experts (MoE)
Общее количество параметров
675B
Активные параметры
41B (на токен)
Визуальный энкодер
2.5B параметров
Контекстное окно
256K токенов
Обучение
3 000× H200 GPU
Релиз
Декабрь 2025
Требования
GPU
4× RTX 4090
8× A100 80GB
8× H100/H200
VRAM
4×24GB (96GB)
8×80GB (640GB)
8×80GB (640GB)
ОЗУ
128GB
256GB
256GB
Диск
400GB
700GB
1.4TB
CUDA
12.0+
12.0+
12.0+
Рекомендуемая настройка Clore.ai:
Лучшее соотношение цена/качество: 4× RTX 4090 (~$2–8/день) — выполняйте квантование Q4 GGUF через llama.cpp или Ollama
Качество для продакшна: 8× A100 80GB (~$16–32/день) — NVFP4 с полным контекстом через vLLM
Максимальная производительность: 8× H100 (~$24–48/день) — FP8, полный контекст 256K
Быстрый старт с Ollama
Самый быстрый способ запустить Mistral Large 3 на многогфп Clore.ai-инстансе:
Быстрый старт с vLLM (Продакшн)
Для обслуживания уровня продакшн с совместимым с OpenAI API:
Примеры использования
1. Чат-комплит (совместимый с OpenAI API)
Когда vLLM запущен, используйте любой клиент, совместимый с OpenAI:
2. Вызов функций / Использование инструментов
Mistral Large 3 отлично справляется со структурированным вызовом инструментов:
3. Vision — анализ изображений
Mistral Large 3 нативно понимает изображения:
Советы для пользователей Clore.ai
Начните с NVFP4 на A100 — Репозиторий
Mistral-Large-3-675B-Instruct-2512-NVFP4чекпойнт специально разработан для узлов A100/H100 и обеспечивает почти без потерь качество при вдвое меньшем объёме памяти по сравнению с FP8.Используйте Ollama для быстрых экспериментов — Если у вас есть инстанс с 4× RTX 4090, Ollama автоматически выполняет GGUF-квантование. Отлично подходит для тестирования перед переходом к vLLM в продакшне.
Безопасно откройте API — При запуске vLLM на инстансе Clore.ai используйте SSH-туннелирование (
ssh -L 8000:localhost:8000 root@<ip>) вместо прямого открытия порта 8000.Понизьте
max-model-lenчтобы сэкономить VRAM — Если вам не нужен полный контекст 256K, установите--max-model-len 32768или65536чтобы значительно уменьшить использование памяти KV-кеша.Рассмотрите плотные альтернативы — Для конфигураций с одним GPU Mistral 3 14B (
mistral3:14bв Ollama) обеспечивает отличную производительность на одном RTX 4090 и относится к той же семье моделей.
Устранение неполадок
CUDA — недостаточно памяти на vLLM
Уменьшите --max-model-len (попробуйте 32768), увеличьте --tensor-parallel-size, или используйте NVFP4-чекпойнт
Медленная генерация
Убедитесь, что --tensor-parallel-size соответствует количеству ваших GPU; включите спекулятивное декодирование с чекпойнтом Eagle
Ollama не удаётся загрузить 675B
Убедитесь, что у вас есть 96GB+ видеопамяти на всех GPU; Ollama требует OLLAMA_NUM_PARALLEL=1 для больших моделей
tokenizer_mode mistral ошибки
Вы должны передать все три флага: --tokenizer-mode mistral --config-format mistral --load-format mistral
Визион не работает
Убедитесь, что изображения имеют соотношение сторон близкое к 1:1; избегайте очень широких/тонких изображений для наилучших результатов
Загрузка слишком медленная
Используйте huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 с HF_TOKEN установите
Дополнительное чтение
Анонс Mistral 3 в блоге — Официальный релизный пост с бенчмарками
Карточка модели на HuggingFace — Инструкции по развёртыванию и результаты бенчмарков
NVFP4-квантованная версия — Оптимизировано для A100/H100
GGUF-квантование (Unsloth) — Для llama.cpp и Ollama
Документация vLLM — Фреймворк для продакшн-обслуживания
Руководство Red Hat Day-0 — Пошаговое развёртывание vLLM
Последнее обновление
Это было полезно?