Mistral Small 3.1

Setzen Sie Mistral Small 3.1 (24B) auf Clore.ai ein — das ideale Produktionsmodell für eine einzelne GPU

Mistral Small 3.1, veröffentlicht im März 2025 von Mistral AI, ist ein 24-Milliarden-Parameter dichtes Modell das weit über seinem Gewicht hinaus Leistung bringt. Mit einem 128K-Kontextfenster, nativen Vision-Fähigkeiten, erstklassigem Funktionsaufruf und einem Apache-2.0-Lizenz, ist es vermutlich das beste Modell, das man auf einer einzelnen RTX 4090 ausführen kann. Es übertrifft GPT-4o Mini und Claude 3.5 Haiku in den meisten Benchmarks und passt beim Quantisieren komfortabel auf Consumer-Hardware.

Hauptmerkmale

  • 24B dichte Parameter — keine MoE-Komplexität, einfache Bereitstellung

  • 128K Kontextfenster — RULER-128K-Score von 81,2 %, schlägt GPT-4o Mini (65,8 %)

  • Native Vision — analysiere Bilder, Diagramme, Dokumente und Screenshots

  • Apache-2.0-Lizenz — vollständig offen für kommerzielle und private Nutzung

  • Elite-Funktionsaufrufe — native Werkzeugnutzung mit JSON-Ausgabe, ideal für agentische Workflows

  • Mehrsprachig — 25+ Sprachen einschließlich CJK, Arabisch, Hindi und europäischen Sprachen

Anforderungen

Komponente
Quantisiert (Q4)
Volle Genauigkeit (BF16)

GPU

1× RTX 4090 24GB

2× RTX 4090 oder 1× H100

VRAM

~16GB

~55GB

RAM

32GB

64GB

Festplatte

20GB

50GB

CUDA

11.8+

12.0+

Clore.ai-Empfehlung: RTX 4090 (~$0.5–2/Tag) für quantisierte Inferenz — bestes Preis/Leistungs-Verhältnis

Schnellstart mit Ollama

Der schnellste Weg, Mistral Small 3.1 zum Laufen zu bringen:

Ollama als OpenAI-kompatible API

Ollama mit Vision

vLLM-Einrichtung (Produktion)

Für Produktions-Workloads mit hohem Durchsatz und gleichzeitigen Anfragen:

Auf Einem GPU bereitstellen (Nur Text)

Mit Vision bereitstellen (2 GPUs empfohlen)

Den Server abfragen

HuggingFace Transformers

Für direkte Python-Integration und Experimente:

Beispiel für Funktionsaufrufe

Mistral Small 3.1 ist eines der besten kleinen Modelle für Werkzeugnutzung:

Docker Quick Start

Tipps für Clore.ai-Nutzer

  • RTX 4090 ist der Sweetspot: Bei $0.5–2/Tag kann eine einzelne RTX 4090 Mistral Small 3.1 quantisiert mit Reserven ausführen. Bestes Kosten-/Leistungs-Verhältnis auf Clore.ai für ein allgemeines LLM.

  • Niedrige Temperatur verwenden: Mistral AI empfiehlt temperature=0.15 für die meisten Aufgaben. Höhere Temperaturen verursachen bei diesem Modell inkonsistente Ausgaben.

  • RTX 3090 funktioniert auch: Bei $0.3–1/Tag läuft die RTX 3090 (24GB) Q4-quantisiert mit Ollama problemlos. Etwas langsamer als die 4090, aber halb so teuer.

  • Ollama für schnelle Setups, vLLM für Produktion: Ollama liefert dir ein funktionierendes Modell in 60 Sekunden. Für gleichzeitige API-Anfragen und höheren Durchsatz wechsle zu vLLM.

  • Funktionsaufrufe machen es besonders: Viele 24B-Modelle können chatten — wenige können zuverlässig Werkzeuge aufrufen. Die Funktionsaufrufe von Mistral Small 3.1 sind auf Augenhöhe mit GPT-4o Mini. Baue Agenten, API-Backends und Automatisierungspipelines mit Vertrauen.

Fehlerbehebung

Problem
Lösung

OutOfMemoryError auf RTX 4090

Verwende das quantisierte Modell über Ollama oder load_in_4bit=True in Transformers. Volles BF16 benötigt ~55GB.

Ollama-Modell nicht gefunden

Verwenden Sie ollama run mistral-small3.1 (offizieller Bibliotheksname).

vLLM-Tokenizer-Fehler

Immer übergeben --tokenizer-mode mistral --config-format mistral --load-format mistral.

Schlechte Ausgabequalität

Setze temperature=0.15. Füge einen System-Prompt hinzu. Mistral Small ist empfindlich gegenüber der Temperatur.

Vision funktioniert nicht auf 1 GPU

Vision-Funktionen benötigen mehr VRAM. Verwende --tensor-parallel-size 2 oder reduziere --max-model-len.

Funktionsaufrufe geben leer zurück

Hinzufügen --tool-call-parser mistral --enable-auto-tool-choice bei vLLM serve.

Weiterführende Lektüre

Zuletzt aktualisiert

War das hilfreich?