Mistral.rs

Inférence LLM ultra-rapide écrite en Rust — serveur prêt pour la production avec prise en charge GGUF, GGML, SafeTensors et API compatible OpenAI.

🦀 Conçu en Rust pour des performances maximales | prise en charge GGUF et modèles vision | Licence Apache-2.0


Qu'est-ce que Mistral.rs ?

Mistral.rs est un moteur d'inférence LLM haute performance écrit entièrement en Rust. À l'origine centré sur les modèles Mistral, il prend désormais en charge l'ensemble des LLM modernes. La fondation Rust offre :

  • Abstractions sans coût — pas de pauses de collecte de déchets pendant l'inférence

  • Sécurité mémoire — pas d'exceptions de pointeur nul ni de fuites mémoire

  • Performances déterministes — latence cohérente sans frais JVM/Python

  • Optimisations au moment de la compilation — SIMD, multithreading et noyaux GPU optimisés à la compilation

Fonctionnalités clés

  • Prise en charge GGUF — exécutez n'importe quel modèle quantifié (Q4_K_M, Q8_0, etc.)

  • ISQ (In-Situ Quantization) — quantification à la volée au moment du chargement

  • PagedAttention — cache KV efficace avec lotissement continu

  • Modèles Vision-Langage — prise en charge de LLaVA, Phi-3 Vision, Idefics

  • Décodage spéculatif — inférence plus rapide avec des modèles draft

  • X-LoRA — prise en charge d'adaptateurs fine-tunés évolutive

  • API REST compatible OpenAI — remplacement prêt à l'emploi

Familles de modèles prises en charge

Famille
Format
Moteur

Llama 2/3

GGUF, SafeTensors

Rust CUDA

Mistral/Mixtral

GGUF, SafeTensors

Rust CUDA

Phi-2/3

GGUF, SafeTensors

Rust CUDA

Gemma

GGUF, SafeTensors

Rust CUDA

Qwen 2

GGUF, SafeTensors

Rust CUDA

Starcoder 2

GGUF

Rust CUDA

LLaVA 1.5/1.6

SafeTensors

Vision

Phi-3 Vision

SafeTensors

Vision


Démarrage rapide sur Clore.ai

Étape 1 : Trouver un serveur GPU

Sur clore.aiarrow-up-right place de marché :

  • Minimum : 8 Go de VRAM (pour les modèles 7B Q4)

  • Recommandé : RTX 3090/4090 (24 Go) pour les modèles plus gros

  • CUDA 11.8+ requis

Étape 2 : Déployer Mistral.rs Docker

Mappages de ports :

Port du conteneur
Usage

22

Accès SSH

8080

Serveur API REST

Variantes d'image disponibles :

Étape 3 : Connecter et vérifier


Exécution du serveur

Démarrage rapide avec un modèle GGUF

Servir Mistral 7B (SafeTensors)

Servir avec quantification In-Situ (ISQ)

ISQ quantifie le modèle au moment du chargement — aucun modèle pré-quantifié nécessaire :

Modèle Vision-Langage

Décodage spéculatif

circle-check

Utilisation de l'API

Endpoints compatibles OpenAI

Point de terminaison
Méthode
Description

/v1/chat/completions

POST

Complétions de chat

/v1/completions

POST

Complétions de texte

/v1/models

GET

Lister les modèles

/v1/images/generations

POST

Génération d'images (VLMs)

/v1/re_isq

POST

Re-quantifier le modèle chargé

/health

GET

Vérification de l'état

Exemple Python

Réponse en streaming

Entrée vision/image

Exemples cURL


Options de configuration

Flags du serveur

Référence de quantification ISQ

Option ISQ
Bits
Qualité
VRAM (7B)

Q2K

2

★★☆☆☆

~2,5 Go

Q3K

3

★★★☆☆

~3,5 Go

Q4_0

4

★★★★☆

~4,5 Go

Q4K

4

★★★★☆

~4,5 Go

Q5K

5

★★★★★

~5,5 Go

Q6K

6

★★★★★

~6,5 Go

Q8_0

8

★★★★★

~8GB

HQQ4

4

★★★★☆

~4,5 Go

HQQ8

8

★★★★★

~8GB

circle-info

HQQ (Quantification demi-quadratique) atteint souvent une meilleure qualité que GGUF Q4 au même niveau de bits, en particulier pour les tâches suivant des instructions.


Fonctionnalités avancées

X-LoRA (Mélange d'adaptateurs LoRA)

Exécuter plusieurs adaptateurs fine-tunés sélectionnés dynamiquement par token :

Re-quantifier à l'exécution

Journalisation des requêtes


Optimisation des performances

Optimiser pour le débit

Optimiser pour une faible latence

Surveiller les performances


Docker Compose


Compilation depuis les sources

Si l'image Docker ne correspond pas à votre version de CUDA :

circle-exclamation

Dépannage

Bibliothèque CUDA introuvable

Échec du téléchargement du modèle

Port 8080 utilisé

Mémoire insuffisante pendant la quantification

triangle-exclamation

Recommandations GPU Clore.ai

Mistral.rs est un moteur natif Rust — son faible overhead signifie que vous obtenez plus de débit par dollar GPU comparé aux serveurs basés sur Python.

GPU
VRAM
Prix Clore.ai
Utilisation recommandée
Débit (Mistral 7B Q4)

RTX 3090

24 Go

~0,12 $/h

Meilleure option budget — 7B Q4/Q8, modèles vision

~120 tok/s

RTX 4090

24 Go

~0,70 $/h

Haut débit 7B–34B, décodage spéculatif

~200 tok/s

A100 40GB

40 Go

~1,20 $/h

Production 34B–70B Q4 en service

~160 tok/s

A100 80GB

80 Go

~2,00 $/h

Précision totale 70B, multi-modèle

~185 tok/s

Pourquoi le RTX 3090 excelle ici : Les noyaux Rust CUDA de Mistral.rs évitent les frais du GIL Python et les pauses de collecte de déchets qui pénalisent les serveurs Python. Un RTX 3090 exécutant Mistral 7B Q4_K_M fournit 120 tok/s — comparable à vLLM sur le même matériel pour une fraction du coût (0,12 $/h contre les fournisseurs cloud facturant 1–2 $/h).

Décodage spéculatif : Associez un grand modèle (34B) à un petit modèle draft (3B) pour un gain de 2–3× sans perte de qualité. Le RTX 4090 est idéal pour ce schéma.


Ressources

Mis à jour

Ce contenu vous a-t-il été utile ?