Mistral Small 3.1

Разверните Mistral Small 3.1 (24B) на Clore.ai — идеальная модель для одной GPU в продакшене

Mistral Small 3.1, выпущенная в марте 2025 года компанией Mistral AI, это плотная модель с 24 миллиардами параметров которая дает намного больше, чем можно ожидать от её размера. С контекстным окном 128K, встроенными возможностями зрения, лучшим в классе вызовом функций и Лицензия Apache 2.0, это, пожалуй, лучшая модель, которую можно запустить на одной RTX 4090. Она превосходит GPT-4o Mini и Claude 3.5 Haiku в большинстве бенчмарков и при этом удобно умещается на потребительском оборудовании при квантизации.

Ключевые особенности

  • 24B плотных параметров — без сложности MoE, простое развертывание

  • Окно контекста 128K — RULER 128K результат 81.2%, обгоняет GPT-4o Mini (65.8%)

  • Встроенное зрение — анализ изображений, диаграмм, документов и скриншотов

  • Лицензия Apache 2.0 — полностью открыта для коммерческого и личного использования

  • Элитный вызов функций — нативное использование инструментов с выводом в JSON, идеально для агентных рабочих процессов

  • Мультиязычность — более 25 языков, включая CJK, арабский, хинди и европейские языки

Требования

Компонент
Квантизировано (Q4)
Полная точность (BF16)

GPU

1× RTX 4090 24GB

2× RTX 4090 или 1× H100

VRAM

~16GB

~55GB

ОЗУ

32GB

64GB

Диск

20GB

50GB

CUDA

11.8+

12.0+

Рекомендация Clore.ai: RTX 4090 (~$0.5–2/день) для квантизированного вывода — лучшее соотношение цены и производительности

Быстрый старт с Ollama

Самый быстрый способ запустить Mistral Small 3.1:

Ollama как API, совместимый с OpenAI

Ollama с поддержкой зрения

Настройка vLLM (Production)

Для рабочих нагрузок в продакшене с высокой пропускной способностью и параллельными запросами:

Сервис на одной GPU (только текст)

Сервер с поддержкой зрения (рекомендуются 2 GPU)

Запрос к серверу

HuggingFace Transformers

Для прямой интеграции с Python и экспериментов:

Пример вызова функций

Mistral Small 3.1 — одна из лучших небольших моделей для использования инструментов:

Быстрый старт с Docker

Советы для пользователей Clore.ai

  • RTX 4090 — оптимальный выбор: При цене $0.5–2/день одна RTX 4090 запускает Mistral Small 3.1 в квантизированном виде с запасом. Лучшее соотношение цена/производительность на Clore.ai для универсальной LLM.

  • Используйте низкую температуру: Mistral AI рекомендует temperature=0.15 для большинства задач. Более высокие значения температуры приводят к непоследовательному выводу с этой моделью.

  • RTX 3090 тоже подходит: При цене $0.3–1/день RTX 3090 (24GB) нормально запускает Q4 квантизированную модель с Ollama. Немного медленнее, чем 4090, но вдвое дешевле.

  • Ollama для быстрых настроек, vLLM для продакшена: Ollama дает работающую модель за 60 секунд. Для параллельных API-запросов и большей пропускной способности переключайтесь на vLLM.

  • Вызов функций делает её особенной: Многие 24B модели умеют разговаривать — немногие надежно вызывают инструменты. Вызов функций у Mistral Small 3.1 сопоставим с GPT-4o Mini. Создавайте агентов, бэкенды API и конвейеры автоматизации с уверенностью.

Устранение неполадок

Проблема
Решение

OutOfMemoryError на RTX 4090

Используйте квантизированную модель через Ollama или load_in_4bit=True в Transformers. Полный BF16 требует ~55GB.

Модель Ollama не найдена

Используйте ollama run mistral-small3.1 (официальное название библиотеки).

Ошибки токенизатора vLLM

Всегда передавайте --tokenizer-mode mistral --config-format mistral --load-format mistral.

Плохое качество вывода

Установите temperature=0.15. Добавьте системный промпт. Mistral Small чувствительна к температуре.

Зрение не работает на 1 GPU

Функции зрения требуют больше VRAM. Используйте --tensor-parallel-size 2 или уменьшите --max-model-len.

Вызовы функций возвращают пустое

Добавьте --tool-call-parser mistral --enable-auto-tool-choice для vLLM serve.

Дополнительное чтение

Последнее обновление

Это было полезно?