# Mistral Large 3 (675B MoE)

Mistral Large 3 — самый мощный модель с открытыми весами от Mistral AI, выпущенная в декабре 2025 года в рамках **Лицензия Apache 2.0**. Это модель Mixture-of-Experts (MoE) с общим количеством параметров 675B, но с активными только 41B на токен — обеспечивая производительность уровня передового уровня при доле вычислений от плотной модели на 675B. С нативной мультимодальной поддержкой (текст + изображения), контекстным окном 256K и лучшими в классе агентными возможностями она напрямую конкурирует с GPT-4o и моделями класса Claude, оставаясь при этом полностью пригодной для самостоятельного хостинга.

**HuggingFace:** [mistralai/Mistral-Large-3-675B-Instruct-2512](https://huggingface.co/mistralai/Mistral-Large-3-675B-Instruct-2512) **Ollama:** [mistral-large-3:675b](https://ollama.com/library/mistral-large-3) **Лицензия:** Apache 2.0

## Ключевые особенности

* **675B всего / 41B активных параметров** — эффективность MoE означает, что вы получаете передовую производительность без активации всех параметров
* **Лицензия Apache 2.0** — полностью открыта для коммерческого и личного использования, без ограничений
* **Нативно мультимодальна** — понимает и текст, и изображения с помощью 2.5B визуального энкодера
* **Контекстное окно 256K** — обрабатывает огромные документы, кодовые базы и длинные разговоры
* **Лучшие в классе агентные возможности** — нативный вызов функций, режим JSON, использование инструментов
* **Несколько вариантов развёртывания** — FP8 на H200/B200, NVFP4 на H100/A100, GGUF-квантование для потребительских GPU

## Архитектура модели

| Компонент                   | Детали                               |
| --------------------------- | ------------------------------------ |
| Архитектура                 | Гранулярный Mixture-of-Experts (MoE) |
| Общее количество параметров | 675B                                 |
| Активные параметры          | 41B (на токен)                       |
| Визуальный энкодер          | 2.5B параметров                      |
| Контекстное окно            | 256K токенов                         |
| Обучение                    | 3 000× H200 GPU                      |
| Релиз                       | Декабрь 2025                         |

## Требования

| Конфигурация | Бюджет (Q4 GGUF) | Стандарт (NVFP4) | Полный (FP8)   |
| ------------ | ---------------- | ---------------- | -------------- |
| GPU          | 4× RTX 4090      | 8× A100 80GB     | 8× H100/H200   |
| VRAM         | 4×24GB (96GB)    | 8×80GB (640GB)   | 8×80GB (640GB) |
| ОЗУ          | 128GB            | 256GB            | 256GB          |
| Диск         | 400GB            | 700GB            | 1.4TB          |
| CUDA         | 12.0+            | 12.0+            | 12.0+          |

**Рекомендуемая настройка Clore.ai:**

* **Лучшее соотношение цена/качество:** 4× RTX 4090 (\~$2–8/день) — выполняйте квантование Q4 GGUF через llama.cpp или Ollama
* **Качество для продакшна:** 8× A100 80GB (\~$16–32/день) — NVFP4 с полным контекстом через vLLM
* **Максимальная производительность:** 8× H100 (\~$24–48/день) — FP8, полный контекст 256K

## Быстрый старт с Ollama

Самый быстрый способ запустить Mistral Large 3 на многогфп Clore.ai-инстансе:

```bash
# Установите Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Запустите модель 675B (требуется multi-GPU, ~96GB+ видеопамяти для Q4)
ollama run mistral-large-3:675b

# Для более мелких плотных вариантов (один GPU):
ollama run mistral3:14b    # 14B dense — помещается на RTX 3060+
ollama run mistral3:8b     # 8B dense — помещается на любом GPU
```

## Быстрый старт с vLLM (Продакшн)

Для обслуживания уровня продакшн с совместимым с OpenAI API:

```bash
# Установите vLLM
pip install vllm

# Обслуживание с NVFP4-квантованием на 8× A100/H100
vllm serve mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 \
    --tensor-parallel-size 8 \
    --tokenizer-mode mistral \
    --config-format mistral \
    --load-format mistral \
    --max-model-len 65536 \
    --gpu-memory-utilization 0.90 \
    --enable-auto-tool-choice \
    --tool-call-parser mistral \
    --host 0.0.0.0 \
    --port 8000

# Для FP8 (оригинальные веса, наивысшее качество):
vllm serve mistralai/Mistral-Large-3-675B-Instruct-2512 \
    --tensor-parallel-size 8 \
    --tokenizer-mode mistral \
    --config-format mistral \
    --load-format mistral \
    --max-model-len 131072 \
    --host 0.0.0.0 \
    --port 8000
```

## Примеры использования

### 1. Чат-комплит (совместимый с OpenAI API)

Когда vLLM запущен, используйте любой клиент, совместимый с OpenAI:

```python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="не_требуется"
)

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[
        {"role": "system", "content": "Вы — полезный помощник по программированию."},
        {"role": "user", "content": "Напишите асинхронный веб-скрейпер на Python с использованием aiohttp и BeautifulSoup."}
    ],
    temperature=0.1,
    max_tokens=4096
)

print(response.choices[0].message.content)
```

### 2. Вызов функций / Использование инструментов

Mistral Large 3 отлично справляется со структурированным вызовом инструментов:

```python
import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Получить текущую погоду для местоположения",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "Название города"},
                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
                },
                "required": ["location"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[{"role": "user", "content": "What's the weather in Tokyo?"}],
    tools=tools,
    tool_choice="auto"
)

tool_call = response.choices[0].message.tool_calls[0]
print(f"Function: {tool_call.function.name}")
print(f"Args: {tool_call.function.arguments}")
```

### 3. Vision — анализ изображений

Mistral Large 3 нативно понимает изображения:

```python
import base64
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

# Кодирование изображения
with open("diagram.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Опишите эту архитектурную диаграмму подробно."},
            {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_b64}"}}
        ]
    }],
    max_tokens=2048
)

print(response.choices[0].message.content)
```

## Советы для пользователей Clore.ai

1. **Начните с NVFP4 на A100** — Репозиторий `Mistral-Large-3-675B-Instruct-2512-NVFP4` чекпойнт специально разработан для узлов A100/H100 и обеспечивает почти без потерь качество при вдвое меньшем объёме памяти по сравнению с FP8.
2. **Используйте Ollama для быстрых экспериментов** — Если у вас есть инстанс с 4× RTX 4090, Ollama автоматически выполняет GGUF-квантование. Отлично подходит для тестирования перед переходом к vLLM в продакшне.
3. **Безопасно откройте API** — При запуске vLLM на инстансе Clore.ai используйте SSH-туннелирование (`ssh -L 8000:localhost:8000 root@<ip>`) вместо прямого открытия порта 8000.
4. **Понизьте `max-model-len` чтобы сэкономить VRAM** — Если вам не нужен полный контекст 256K, установите `--max-model-len 32768` или `65536` чтобы значительно уменьшить использование памяти KV-кеша.
5. **Рассмотрите плотные альтернативы** — Для конфигураций с одним GPU Mistral 3 14B (`mistral3:14b` в Ollama) обеспечивает отличную производительность на одном RTX 4090 и относится к той же семье моделей.

## Устранение неполадок

| Проблема                             | Решение                                                                                                                                 |
| ------------------------------------ | --------------------------------------------------------------------------------------------------------------------------------------- |
| `CUDA — недостаточно памяти` на vLLM | Уменьшите `--max-model-len` (попробуйте 32768), увеличьте `--tensor-parallel-size`, или используйте NVFP4-чекпойнт                      |
| Медленная генерация                  | Убедитесь, что `--tensor-parallel-size` соответствует количеству ваших GPU; включите спекулятивное декодирование с чекпойнтом Eagle     |
| Ollama не удаётся загрузить 675B     | Убедитесь, что у вас есть 96GB+ видеопамяти на всех GPU; Ollama требует `OLLAMA_NUM_PARALLEL=1` для больших моделей                     |
| `tokenizer_mode mistral` ошибки      | Вы должны передать все три флага: `--tokenizer-mode mistral --config-format mistral --load-format mistral`                              |
| Визион не работает                   | Убедитесь, что изображения имеют соотношение сторон близкое к 1:1; избегайте очень широких/тонких изображений для наилучших результатов |
| Загрузка слишком медленная           | Используйте `huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4` с `HF_TOKEN` установите                       |

## Дополнительное чтение

* [Анонс Mistral 3 в блоге](https://mistral.ai/news/mistral-3) — Официальный релизный пост с бенчмарками
* [Карточка модели на HuggingFace](https://huggingface.co/mistralai/Mistral-Large-3-675B-Instruct-2512) — Инструкции по развёртыванию и результаты бенчмарков
* [NVFP4-квантованная версия](https://huggingface.co/mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4) — Оптимизировано для A100/H100
* [GGUF-квантование (Unsloth)](https://huggingface.co/unsloth/Mistral-Large-3-675B-Instruct-2512-GGUF) — Для llama.cpp и Ollama
* [Документация vLLM](https://docs.vllm.ai/) — Фреймворк для продакшн-обслуживания
* [Руководство Red Hat Day-0](https://developers.redhat.com/articles/2025/12/02/run-mistral-large-3-ministral-3-vllm-red-hat-ai) — Пошаговое развёртывание vLLM


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/mistral-large3.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
