Mistral.rs

Молниеносный вывод LLM, написанный на Rust — готовый к продакшену сервер с поддержкой GGUF, GGML, SafeTensors и совместимым с OpenAI API.

🦀 Создано на Rust для максимальной производительности | поддержка GGUF и моделей для зрения | Лицензия Apache-2.0


Что такое Mistral.rs?

Mistral.rs — это высокопроизводительный движок вывода LLM, полностью написанный на Rust. Изначально ориентированный на модели Mistral, теперь он поддерживает весь спектр современных LLM. Основа на Rust обеспечивает:

  • Абстракции без стоимости — отсутствие пауз из-за сборщика мусора во время вывода

  • Безопасность памяти — никаких ошибок с нулевыми указателями или утечек памяти

  • Детерминированная производительность — стабильная задержка без накладных расходов JVM/Python

  • Оптимизации на этапе компиляции — SIMD, многопоточность и GPU-ядра оптимизированы на этапе сборки

Ключевые возможности

  • Поддержка GGUF — запуск любых квантизированных моделей (Q4_K_M, Q8_0 и т.д.)

  • ISQ (In-Situ Quantization) — квантизация на лету при загрузке

  • PagedAttention — эффективный KV-кеш с непрерывной пакетной обработкой

  • Модели зрения и языка — поддержка LLaVA, Phi-3 Vision, Idefics

  • Спекулятивное декодирование — более быстрый вывод с черновыми моделями

  • X-LoRA — масштабируемая поддержка тонконастроенных адаптеров

  • REST API, совместимый с OpenAI — замена без изменений

Поддерживаемые семейства моделей

Семейство
Формат
Движок

Llama 2/3

GGUF, SafeTensors

Rust CUDA

Mistral/Mixtral

GGUF, SafeTensors

Rust CUDA

Phi-2/3

GGUF, SafeTensors

Rust CUDA

Gemma

GGUF, SafeTensors

Rust CUDA

Qwen 2

GGUF, SafeTensors

Rust CUDA

Starcoder 2

GGUF

Rust CUDA

LLaVA 1.5/1.6

SafeTensors

Зрение

Phi-3 Vision

SafeTensors

Зрение


Быстрый старт на Clore.ai

Шаг 1: Найдите GPU-сервер

На clore.aiarrow-up-right рынок:

  • Минимум: 8 ГБ VRAM (для моделей 7B Q4)

  • Рекомендуется: RTX 3090/4090 (24 ГБ) для больших моделей

  • Требуется CUDA 11.8+

Шаг 2: Разверните Mistral.rs в Docker

Проброс портов:

Порт контейнера
Назначение

22

Доступ по SSH

8080

REST API сервер

Доступные варианты образа:

Шаг 3: Подключение и проверка


Запуск сервера

Быстрый старт с моделью GGUF

Запустить Mistral 7B (SafeTensors)

Запуск с In-Situ Quantization (ISQ)

ISQ квантизирует модель при загрузке — предварительно квантизированная модель не требуется:

Модель зрения и языка

Спекулятивная декодировка

circle-check

Использование API

Конечные точки, совместимые с OpenAI

Конечная точка
Метод
Описание

/v1/chat/completions

POST

Чат-компле́ты

/v1/completions

POST

Текстовые завершения

/v1/models

GET

Список моделей

/v1/images/generations

POST

Генерация изображений (VLM)

/v1/re_isq

POST

Повторная квантизация загруженной модели

/health

GET

Проверка состояния

Пример на Python

Потоковый ответ

Ввод изображения/зрения

Примеры cURL


Параметры конфигурации

Флаги сервера

Справочник по ISQ квантизации

Опция ISQ
Биты
Качество
VRAM (7B)

Q2K

2

★★☆☆☆

~2.5GB

Q3K

3

★★★☆☆

~3.5GB

Q4_0

4

★★★★☆

~4.5GB

Q4K

4

★★★★☆

~4.5GB

Q5K

5

★★★★★

~5.5GB

Q6K

6

★★★★★

~6.5GB

Q8_0

8

★★★★★

~8 ГБ

HQQ4

4

★★★★☆

~4.5GB

HQQ8

8

★★★★★

~8 ГБ

circle-info

HQQ (полуквадратичная квантизация) часто достигает лучшего качества, чем GGUF Q4 на том же уровне битов, особенно для задач, следующих инструкциям.


Расширенные возможности

X-LoRA (смесь адаптеров LoRA)

Запускайте несколько тонконастроенных адаптеров, динамически выбираемых для каждого токена:

Повторная квантизация во время выполнения

Логирование запросов


Настройка производительности

Оптимизация пропускной способности

Оптимизация для низкой задержки

Мониторинг производительности


Docker Compose


Сборка из исходников

Если Docker-образ не соответствует вашей версии CUDA:

circle-exclamation

Устранение неполадок

Библиотека CUDA не найдена

Сбой загрузки модели

Порт 8080 занят

Недостаточно памяти при квантизации

triangle-exclamation

Рекомендации Clore.ai по GPU

Mistral.rs — нативный движок на Rust — его низкие накладные расходы означают большую пропускную способность за доллар GPU по сравнению с серверами на Python.

GPU
VRAM
Цена Clore.ai
Рекомендуемое использование
Пропускная способность (Mistral 7B Q4)

RTX 3090

24 ГБ

~$0.12/ч

Лучший бюджетный вариант — 7B Q4/Q8, модели для зрения

~120 ток/с

RTX 4090

24 ГБ

~$0.70/ч

Высокая пропускная способность 7B–34B, спекулятивная декодировка

~200 ток/с

A100 40GB

40 ГБ

~$1.20/ч

Продакшен для 34B–70B Q4

~160 ток/с

A100 80GB

80 ГБ

~$2.00/ч

Полная точность 70B, мульти-модель

~185 ток/с

Почему RTX 3090 здесь превосходна: CUDA-ядра Rust в Mistral.rs избегают накладных расходов Python GIL и пауз сборщика мусора, которые мешают серверам на Python. RTX 3090, запускающая Mistral 7B Q4_K_M, обеспечивает 120 ток/с — сопоставимо с vLLM на том же железе за часть стоимости ($0.12/час против $1–2/час у облачных провайдеров).

Спекулятивная декодировка: Сочетайте большую модель (34B) с небольшой черновой моделью (3B) для 2–3× ускорения без потери качества. RTX 4090 идеальна для такого подхода.


Ресурсы

Последнее обновление

Это было полезно?