Mistral.rs

Blitzschnelle LLM-Inferenz in Rust geschrieben — produktionsreifer Server mit GGUF-, GGML-, SafeTensors-Unterstützung und OpenAI-kompatibler API.

🦀 In Rust entwickelt für maximale Leistung | GGUF- & Vision-Modellunterstützung | Apache-2.0-Lizenz


Was ist Mistral.rs?

Mistral.rs ist eine leistungsstarke LLM-Inferenz-Engine, die vollständig in Rustgeschrieben ist. Ursprünglich auf Mistral-Modelle ausgerichtet, unterstützt sie jetzt die gesamte Landschaft moderner LLMs. Das Rust-Ökosystem bietet:

  • Kostenlose Abstraktionen — keine Garbage-Collection-Pausen während der Inferenz

  • Speichersicherheit — keine Nullzeiger-Ausnahmen oder Speicherlecks

  • Deterministische Leistung — konsistente Latenz ohne JVM-/Python-Overhead

  • Kompilierungszeit-Optimierungen — SIMD-, Threading- und GPU-Kerne zur Build-Zeit optimiert

Hauptfunktionen

  • GGUF-Unterstützung — führe jedes quantisierte Modell aus (Q4_K_M, Q8_0, usw.)

  • ISQ (In-Situ-Quantisierung) — quantisiere on-the-fly beim Laden

  • PagedAttention — effizienter KV-Cache mit kontinuierlichem Batching

  • Vision Language Models — LLaVA-, Phi-3 Vision-, Idefics-Unterstützung

  • Spekulatives Decoding — schnellere Inferenz mit Draft-Modellen

  • X-LoRA — skalierbare Unterstützung für feinabgestimmte Adapter

  • OpenAI-kompatible REST-API — Drop-in-Ersatz

Unterstützte Modellfamilien

Familie
Format
Engine

Llama 2/3

GGUF, SafeTensors

Rust CUDA

Mistral/Mixtral

GGUF, SafeTensors

Rust CUDA

Phi-2/3

GGUF, SafeTensors

Rust CUDA

Gemma

GGUF, SafeTensors

Rust CUDA

Qwen 2

GGUF, SafeTensors

Rust CUDA

Starcoder 2

GGUF

Rust CUDA

LLaVA 1.5/1.6

SafeTensors

Vision

Phi-3 Vision

SafeTensors

Vision


Schnellstart auf Clore.ai

Schritt 1: Finden Sie einen GPU-Server

Auf clore.aiarrow-up-right Marktplatz:

  • Minimum: 8GB VRAM (für 7B Q4-Modelle)

  • Empfohlen: RTX 3090/4090 (24GB) für größere Modelle

  • CUDA 11.8+ erforderlich

Schritt 2: Mistral.rs Docker bereitstellen

Port-Mappings:

Container-Port
Zweck

22

SSH-Zugriff

8080

REST-API-Server

Verfügbare Image-Varianten:

Schritt 3: Verbinden und Überprüfen


Den Server starten

Schnellstart mit GGUF-Modell

Mistral 7B bereitstellen (SafeTensors)

Mit In-Situ-Quantisierung (ISQ) bereitstellen

ISQ quantisiert das Modell zur Ladezeit — kein vorquantisiertes Modell erforderlich:

Vision Language Model

Spekulatives Decoding

circle-check

API-Nutzung

OpenAI-kompatible Endpunkte

Endpunkt
Methode
Beschreibung

/v1/chat/completions

POST

Chat-Vervollständigungen

/v1/completions

POST

Textvervollständigungen

/v1/models

GET

Modelle auflisten

/v1/images/generations

POST

Bildgenerierung (VLMs)

/v1/re_isq

POST

Geladenes Modell re-quantisieren

/health

GET

Health-Check

Python-Beispiel

Streaming-Antwort

Vision-/Bild-Eingabe

cURL-Beispiele


Konfigurationsoptionen

Server-Flags

ISQ-Quantisierungsreferenz

ISQ-Option
Bits
Qualität
VRAM (7B)

Q2K

2

★★☆☆☆

~2,5GB

Q3K

3

★★★☆☆

~3,5GB

Q4_0

4

★★★★☆

~4,5GB

Q4K

4

★★★★☆

~4,5GB

Q5K

5

★★★★★

~5,5GB

Q6K

6

★★★★★

~6,5GB

Q8_0

8

★★★★★

~8GB

HQQ4

4

★★★★☆

~4,5GB

HQQ8

8

★★★★★

~8GB

circle-info

HQQ (Half-Quadratic Quantization) erzielt oft bessere Qualität als GGUF Q4 auf demselben Bit-Level, insbesondere bei auf Anweisungen folgenden Aufgaben.


Erweiterte Funktionen

X-LoRA (Mixture of LoRA Adapters)

Führe mehrere feinabgestimmte Adapter aus, die dynamisch pro Token ausgewählt werden:

Re-Quantisierung zur Laufzeit

Anfrageprotokollierung


Performance-Tuning

Für Durchsatz optimieren

Für niedrige Latenz optimieren

Leistung überwachen


Docker Compose


Vom Quellcode bauen

Falls das Docker-Image nicht zu deiner CUDA-Version passt:

circle-exclamation

Fehlerbehebung

CUDA-Bibliothek nicht gefunden

Modell-Download schlägt fehl

Port 8080 in Benutzung

Während der Quantisierung kein Speicher mehr

triangle-exclamation

Clore.ai GPU-Empfehlungen

Mistral.rs ist eine native Rust-Engine — ihr geringer Overhead bedeutet, dass du mehr Durchsatz pro GPU-Dollar im Vergleich zu Python-basierten Servern erhältst.

GPU
VRAM
Clore.ai-Preis
Empfohlene Verwendung
Durchsatz (Mistral 7B Q4)

RTX 3090

24 GB

~$0.12/Stunde

Beste Budget-Option — 7B Q4/Q8, Vision-Modelle

~120 tok/s

RTX 4090

24 GB

~$0.70/Stunde

Hoher Durchsatz 7B–34B, spekulatives Decoding

~200 tok/s

A100 40GB

40 GB

~$1.20/Stunde

Produktionsbetrieb 34B–70B Q4-Serving

~160 tok/s

A100 80GB

80 GB

~$2.00/Stunde

Volle Präzision 70B, Multi-Modell

~185 tok/s

Warum die RTX 3090 hier glänzt: Die Rust CUDA-Kerne von Mistral.rs vermeiden Python-GIL-Overhead und Garbage-Collection-Pausen, die Python-Server beeinträchtigen. Eine RTX 3090, die Mistral 7B Q4_K_M ausführt, liefert 120 tok/s — vergleichbar mit vLLM auf derselben Hardware zu einem Bruchteil der Kosten (0,12 $/Std. vs. Cloud-Anbieter, die 1–2 $/Std. berechnen).

Spekulatives Decoding: Kombiniere ein großes Modell (34B) mit einem kleinen Draft-Modell (3B) für 2–3× Beschleunigung ohne Qualitätsverlust. Die RTX 4090 ist ideal für dieses Muster.


Ressourcen

Zuletzt aktualisiert

War das hilfreich?