# Mistral Large 3 (675B MoE)

Mistral Large 3 — самый мощный модель с открытыми весами от Mistral AI, выпущенная в декабре 2025 года в рамках **Лицензия Apache 2.0**. Это модель Mixture-of-Experts (MoE) с общим количеством параметров 675B, но с активными только 41B на токен — обеспечивая производительность уровня передового уровня при доле вычислений от плотной модели на 675B. С нативной мультимодальной поддержкой (текст + изображения), контекстным окном 256K и лучшими в классе агентными возможностями она напрямую конкурирует с GPT-4o и моделями класса Claude, оставаясь при этом полностью пригодной для самостоятельного хостинга.

**HuggingFace:** [mistralai/Mistral-Large-3-675B-Instruct-2512](https://huggingface.co/mistralai/Mistral-Large-3-675B-Instruct-2512) **Ollama:** [mistral-large-3:675b](https://ollama.com/library/mistral-large-3) **Лицензия:** Apache 2.0

## Ключевые особенности

* **675B всего / 41B активных параметров** — эффективность MoE означает, что вы получаете передовую производительность без активации всех параметров
* **Лицензия Apache 2.0** — полностью открыта для коммерческого и личного использования, без ограничений
* **Нативно мультимодальна** — понимает и текст, и изображения с помощью 2.5B визуального энкодера
* **Контекстное окно 256K** — обрабатывает огромные документы, кодовые базы и длинные разговоры
* **Лучшие в классе агентные возможности** — нативный вызов функций, режим JSON, использование инструментов
* **Несколько вариантов развёртывания** — FP8 на H200/B200, NVFP4 на H100/A100, GGUF-квантование для потребительских GPU

## Архитектура модели

| Компонент                   | Детали                               |
| --------------------------- | ------------------------------------ |
| Архитектура                 | Гранулярный Mixture-of-Experts (MoE) |
| Общее количество параметров | 675B                                 |
| Активные параметры          | 41B (на токен)                       |
| Визуальный энкодер          | 2.5B параметров                      |
| Контекстное окно            | 256K токенов                         |
| Обучение                    | 3 000× H200 GPU                      |
| Релиз                       | Декабрь 2025                         |

## Требования

| Конфигурация | Бюджет (Q4 GGUF) | Стандарт (NVFP4) | Полный (FP8)   |
| ------------ | ---------------- | ---------------- | -------------- |
| GPU          | 4× RTX 4090      | 8× A100 80GB     | 8× H100/H200   |
| VRAM         | 4×24GB (96GB)    | 8×80GB (640GB)   | 8×80GB (640GB) |
| ОЗУ          | 128GB            | 256GB            | 256GB          |
| Диск         | 400GB            | 700GB            | 1.4TB          |
| CUDA         | 12.0+            | 12.0+            | 12.0+          |

**Рекомендуемая настройка Clore.ai:**

* **Лучшее соотношение цена/качество:** 4× RTX 4090 (\~$2–8/день) — выполняйте квантование Q4 GGUF через llama.cpp или Ollama
* **Качество для продакшна:** 8× A100 80GB (\~$16–32/день) — NVFP4 с полным контекстом через vLLM
* **Максимальная производительность:** 8× H100 (\~$24–48/день) — FP8, полный контекст 256K

## Быстрый старт с Ollama

Самый быстрый способ запустить Mistral Large 3 на многогфп Clore.ai-инстансе:

```bash
# Установите Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Запустите модель 675B (требуется multi-GPU, ~96GB+ видеопамяти для Q4)
ollama run mistral-large-3:675b

# Для более мелких плотных вариантов (один GPU):
ollama run mistral3:14b    # 14B dense — помещается на RTX 3060+
ollama run mistral3:8b     # 8B dense — помещается на любом GPU
```

## Быстрый старт с vLLM (Продакшн)

Для обслуживания уровня продакшн с совместимым с OpenAI API:

```bash
# Установите vLLM
pip install vllm

# Обслуживание с NVFP4-квантованием на 8× A100/H100
vllm serve mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 \
    --tensor-parallel-size 8 \
    --tokenizer-mode mistral \
    --config-format mistral \
    --load-format mistral \
    --max-model-len 65536 \
    --gpu-memory-utilization 0.90 \
    --enable-auto-tool-choice \
    --tool-call-parser mistral \
    --host 0.0.0.0 \
    --port 8000

# Для FP8 (оригинальные веса, наивысшее качество):
vllm serve mistralai/Mistral-Large-3-675B-Instruct-2512 \
    --tensor-parallel-size 8 \
    --tokenizer-mode mistral \
    --config-format mistral \
    --load-format mistral \
    --max-model-len 131072 \
    --host 0.0.0.0 \
    --port 8000
```

## Примеры использования

### 1. Чат-комплит (совместимый с OpenAI API)

Когда vLLM запущен, используйте любой клиент, совместимый с OpenAI:

```python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="не_требуется"
)

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[
        {"role": "system", "content": "Вы — полезный помощник по программированию."},
        {"role": "user", "content": "Напишите асинхронный веб-скрейпер на Python с использованием aiohttp и BeautifulSoup."}
    ],
    temperature=0.1,
    max_tokens=4096
)

print(response.choices[0].message.content)
```

### 2. Вызов функций / Использование инструментов

Mistral Large 3 отлично справляется со структурированным вызовом инструментов:

```python
import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Получить текущую погоду для местоположения",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "Название города"},
                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
                },
                "required": ["location"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[{"role": "user", "content": "What's the weather in Tokyo?"}],
    tools=tools,
    tool_choice="auto"
)

tool_call = response.choices[0].message.tool_calls[0]
print(f"Function: {tool_call.function.name}")
print(f"Args: {tool_call.function.arguments}")
```

### 3. Vision — анализ изображений

Mistral Large 3 нативно понимает изображения:

```python
import base64
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

# Кодирование изображения
with open("diagram.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Опишите эту архитектурную диаграмму подробно."},
            {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_b64}"}}
        ]
    }],
    max_tokens=2048
)

print(response.choices[0].message.content)
```

## Советы для пользователей Clore.ai

1. **Начните с NVFP4 на A100** — Репозиторий `Mistral-Large-3-675B-Instruct-2512-NVFP4` чекпойнт специально разработан для узлов A100/H100 и обеспечивает почти без потерь качество при вдвое меньшем объёме памяти по сравнению с FP8.
2. **Используйте Ollama для быстрых экспериментов** — Если у вас есть инстанс с 4× RTX 4090, Ollama автоматически выполняет GGUF-квантование. Отлично подходит для тестирования перед переходом к vLLM в продакшне.
3. **Безопасно откройте API** — При запуске vLLM на инстансе Clore.ai используйте SSH-туннелирование (`ssh -L 8000:localhost:8000 root@<ip>`) вместо прямого открытия порта 8000.
4. **Понизьте `max-model-len` чтобы сэкономить VRAM** — Если вам не нужен полный контекст 256K, установите `--max-model-len 32768` или `65536` чтобы значительно уменьшить использование памяти KV-кеша.
5. **Рассмотрите плотные альтернативы** — Для конфигураций с одним GPU Mistral 3 14B (`mistral3:14b` в Ollama) обеспечивает отличную производительность на одном RTX 4090 и относится к той же семье моделей.

## Устранение неполадок

| Проблема                             | Решение                                                                                                                                 |
| ------------------------------------ | --------------------------------------------------------------------------------------------------------------------------------------- |
| `CUDA — недостаточно памяти` на vLLM | Уменьшите `--max-model-len` (попробуйте 32768), увеличьте `--tensor-parallel-size`, или используйте NVFP4-чекпойнт                      |
| Медленная генерация                  | Убедитесь, что `--tensor-parallel-size` соответствует количеству ваших GPU; включите спекулятивное декодирование с чекпойнтом Eagle     |
| Ollama не удаётся загрузить 675B     | Убедитесь, что у вас есть 96GB+ видеопамяти на всех GPU; Ollama требует `OLLAMA_NUM_PARALLEL=1` для больших моделей                     |
| `tokenizer_mode mistral` ошибки      | Вы должны передать все три флага: `--tokenizer-mode mistral --config-format mistral --load-format mistral`                              |
| Визион не работает                   | Убедитесь, что изображения имеют соотношение сторон близкое к 1:1; избегайте очень широких/тонких изображений для наилучших результатов |
| Загрузка слишком медленная           | Используйте `huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4` с `HF_TOKEN` установите                       |

## Дополнительное чтение

* [Анонс Mistral 3 в блоге](https://mistral.ai/news/mistral-3) — Официальный релизный пост с бенчмарками
* [Карточка модели на HuggingFace](https://huggingface.co/mistralai/Mistral-Large-3-675B-Instruct-2512) — Инструкции по развёртыванию и результаты бенчмарков
* [NVFP4-квантованная версия](https://huggingface.co/mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4) — Оптимизировано для A100/H100
* [GGUF-квантование (Unsloth)](https://huggingface.co/unsloth/Mistral-Large-3-675B-Instruct-2512-GGUF) — Для llama.cpp и Ollama
* [Документация vLLM](https://docs.vllm.ai/) — Фреймворк для продакшн-обслуживания
* [Руководство Red Hat Day-0](https://developers.redhat.com/articles/2025/12/02/run-mistral-large-3-ministral-3-vllm-red-hat-ai) — Пошаговое развёртывание vLLM
