Mistral Large 3 (675B MoE)

Запустите Mistral Large 3 — пограничная модель 675B MoE с 41B активных параметров на GPU Clore.ai

Mistral Large 3 — самый мощный модель с открытыми весами от Mistral AI, выпущенная в декабре 2025 года в рамках Лицензия Apache 2.0. Это модель Mixture-of-Experts (MoE) с общим количеством параметров 675B, но с активными только 41B на токен — обеспечивая производительность уровня передового уровня при доле вычислений от плотной модели на 675B. С нативной мультимодальной поддержкой (текст + изображения), контекстным окном 256K и лучшими в классе агентными возможностями она напрямую конкурирует с GPT-4o и моделями класса Claude, оставаясь при этом полностью пригодной для самостоятельного хостинга.

HuggingFace: mistralai/Mistral-Large-3-675B-Instruct-2512 Ollama: mistral-large-3:675b Лицензия: Apache 2.0

Ключевые особенности

675B всего / 41B активных параметров — эффективность MoE означает, что вы получаете передовую производительность без активации всех параметров
Лицензия Apache 2.0 — полностью открыта для коммерческого и личного использования, без ограничений
Нативно мультимодальна — понимает и текст, и изображения с помощью 2.5B визуального энкодера
Контекстное окно 256K — обрабатывает огромные документы, кодовые базы и длинные разговоры
Лучшие в классе агентные возможности — нативный вызов функций, режим JSON, использование инструментов
Несколько вариантов развёртывания — FP8 на H200/B200, NVFP4 на H100/A100, GGUF-квантование для потребительских GPU

Архитектура модели

Компонент

Детали

Архитектура

Гранулярный Mixture-of-Experts (MoE)

Общее количество параметров

675B

Активные параметры

41B (на токен)

Визуальный энкодер

2.5B параметров

Контекстное окно

256K токенов

Обучение

3 000× H200 GPU

Релиз

Декабрь 2025

Требования

Конфигурация

Бюджет (Q4 GGUF)

Стандарт (NVFP4)

Полный (FP8)

GPU

4× RTX 4090

8× A100 80GB

8× H100/H200

VRAM

4×24GB (96GB)

8×80GB (640GB)

ОЗУ

128GB

256GB

Диск

400GB

700GB

1.4TB

CUDA

12.0+

Рекомендуемая настройка Clore.ai:

Лучшее соотношение цена/качество: 4× RTX 4090 (~$2–8/день) — выполняйте квантование Q4 GGUF через llama.cpp или Ollama
Качество для продакшна: 8× A100 80GB (~$16–32/день) — NVFP4 с полным контекстом через vLLM
Максимальная производительность: 8× H100 (~$24–48/день) — FP8, полный контекст 256K

Быстрый старт с Ollama

Самый быстрый способ запустить Mistral Large 3 на многогфп Clore.ai-инстансе:

# Установите Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Запустите модель 675B (требуется multi-GPU, ~96GB+ видеопамяти для Q4)
ollama run mistral-large-3:675b

# Для более мелких плотных вариантов (один GPU):
ollama run mistral3:14b    # 14B dense — помещается на RTX 3060+
ollama run mistral3:8b     # 8B dense — помещается на любом GPU

Быстрый старт с vLLM (Продакшн)

Для обслуживания уровня продакшн с совместимым с OpenAI API:

# Установите vLLM
pip install vllm

# Обслуживание с NVFP4-квантованием на 8× A100/H100
vllm serve mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 \
    --tensor-parallel-size 8 \
    --tokenizer-mode mistral \
    --config-format mistral \
    --load-format mistral \
    --max-model-len 65536 \
    --gpu-memory-utilization 0.90 \
    --enable-auto-tool-choice \
    --tool-call-parser mistral \
    --host 0.0.0.0 \
    --port 8000

# Для FP8 (оригинальные веса, наивысшее качество):
vllm serve mistralai/Mistral-Large-3-675B-Instruct-2512 \
    --tensor-parallel-size 8 \
    --tokenizer-mode mistral \
    --config-format mistral \
    --load-format mistral \
    --max-model-len 131072 \
    --host 0.0.0.0 \
    --port 8000

Примеры использования

1. Чат-комплит (совместимый с OpenAI API)

Когда vLLM запущен, используйте любой клиент, совместимый с OpenAI:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="не_требуется"
)

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[
        {"role": "system", "content": "Вы — полезный помощник по программированию."},
        {"role": "user", "content": "Напишите асинхронный веб-скрейпер на Python с использованием aiohttp и BeautifulSoup."}
    ],
    temperature=0.1,
    max_tokens=4096
)

print(response.choices[0].message.content)

2. Вызов функций / Использование инструментов

Mistral Large 3 отлично справляется со структурированным вызовом инструментов:

import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Получить текущую погоду для местоположения",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "Название города"},
                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
                },
                "required": ["location"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[{"role": "user", "content": "What's the weather in Tokyo?"}],
    tools=tools,
    tool_choice="auto"
)

tool_call = response.choices[0].message.tool_calls[0]
print(f"Function: {tool_call.function.name}")
print(f"Args: {tool_call.function.arguments}")

3. Vision — анализ изображений

Mistral Large 3 нативно понимает изображения:

import base64
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

# Кодирование изображения
with open("diagram.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Опишите эту архитектурную диаграмму подробно."},
            {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_b64}"}}
        ]
    }],
    max_tokens=2048
)

print(response.choices[0].message.content)

Советы для пользователей Clore.ai

Начните с NVFP4 на A100 — Репозиторий Mistral-Large-3-675B-Instruct-2512-NVFP4 чекпойнт специально разработан для узлов A100/H100 и обеспечивает почти без потерь качество при вдвое меньшем объёме памяти по сравнению с FP8.
Используйте Ollama для быстрых экспериментов — Если у вас есть инстанс с 4× RTX 4090, Ollama автоматически выполняет GGUF-квантование. Отлично подходит для тестирования перед переходом к vLLM в продакшне.
Безопасно откройте API — При запуске vLLM на инстансе Clore.ai используйте SSH-туннелирование (ssh -L 8000:localhost:8000 root@<ip>) вместо прямого открытия порта 8000.
Понизьте max-model-len чтобы сэкономить VRAM — Если вам не нужен полный контекст 256K, установите --max-model-len 32768 или 65536 чтобы значительно уменьшить использование памяти KV-кеша.
Рассмотрите плотные альтернативы — Для конфигураций с одним GPU Mistral 3 14B (mistral3:14b в Ollama) обеспечивает отличную производительность на одном RTX 4090 и относится к той же семье моделей.

Устранение неполадок

Проблема

Решение

CUDA — недостаточно памяти на vLLM

Уменьшите --max-model-len (попробуйте 32768), увеличьте --tensor-parallel-size, или используйте NVFP4-чекпойнт

Медленная генерация

Убедитесь, что --tensor-parallel-size соответствует количеству ваших GPU; включите спекулятивное декодирование с чекпойнтом Eagle

Ollama не удаётся загрузить 675B

Убедитесь, что у вас есть 96GB+ видеопамяти на всех GPU; Ollama требует OLLAMA_NUM_PARALLEL=1 для больших моделей

tokenizer_mode mistral ошибки

Вы должны передать все три флага: --tokenizer-mode mistral --config-format mistral --load-format mistral

Визион не работает

Убедитесь, что изображения имеют соотношение сторон близкое к 1:1; избегайте очень широких/тонких изображений для наилучших результатов

Загрузка слишком медленная

Используйте huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 с HF_TOKEN установите

Дополнительное чтение

Анонс Mistral 3 в блоге — Официальный релизный пост с бенчмарками
Карточка модели на HuggingFace — Инструкции по развёртыванию и результаты бенчмарков
NVFP4-квантованная версия — Оптимизировано для A100/H100
GGUF-квантование (Unsloth) — Для llama.cpp и Ollama
Документация vLLM — Фреймворк для продакшн-обслуживания
Руководство Red Hat Day-0 — Пошаговое развёртывание vLLM

ПредыдущаяKimi K2.5 СледующаяMiMo-V2-Flash

Последнее обновление 22 дня назад

Это было полезно?

hashtagКлючевые особенности

hashtagАрхитектура модели

hashtagТребования

hashtagБыстрый старт с Ollama

hashtagБыстрый старт с vLLM (Продакшн)

hashtagПримеры использования

hashtag1. Чат-комплит (совместимый с OpenAI API)

hashtag2. Вызов функций / Использование инструментов

hashtag3. Vision — анализ изображений

hashtagСоветы для пользователей Clore.ai

hashtagУстранение неполадок

hashtagДополнительное чтение