Mistral Small 3.1

Déployez Mistral Small 3.1 (24B) sur Clore.ai — le modèle de production idéal pour un seul GPU

Mistral Small 3.1, sorti en mars 2025 par Mistral AI, est un modèle dense de 24 milliards de paramètres qui surpasse largement son poids. Avec une fenêtre de contexte de 128K, des capacités vision natives, un appel de fonctions parmi les meilleurs de sa catégorie, et un Licence Apache 2.0, c'est sans doute le meilleur modèle que vous puissiez exécuter sur une seule RTX 4090. Il surpasse GPT-4o Mini et Claude 3.5 Haiku sur la plupart des benchmarks tout en tenant confortablement sur du matériel grand public une fois quantifié.

Principales caractéristiques

  • 24 milliards de paramètres denses — pas de complexité MoE, déploiement simple

  • Fenêtre de contexte 128K — score RULER 128K de 81,2 %, bat GPT-4o Mini (65,8 %)

  • Vision native — analyser des images, graphiques, documents et captures d'écran

  • Licence Apache 2.0 — entièrement ouvert pour usage commercial et personnel

  • Appel de fonctions d'élite — utilisation native d'outils avec sortie JSON, idéal pour des flux de travail agentiques

  • Multilingue — plus de 25 langues dont CJK, arabe, hindi et langues européennes

Exigences

Composant
Quantifié (Q4)
Précision complète (BF16)

GPU

1× RTX 4090 24GB

2× RTX 4090 ou 1× H100

VRAM

~16GB

~55 Go

RAM

32Go

64Go

Disque

20Go

50GB

CUDA

11.8+

12.0+

Recommandation Clore.ai: RTX 4090 (~0,5–2 $/jour) pour l'inférence quantifiée — meilleur rapport prix/performance

Démarrage rapide avec Ollama

Le moyen le plus rapide pour faire fonctionner Mistral Small 3.1 :

Ollama en tant qu'API compatible OpenAI

Ollama avec Vision

Configuration vLLM (Production)

Pour des charges de production avec un haut débit et des requêtes concurrentes :

Servir sur un seul GPU (texte seulement)

Servir avec Vision (2 GPU recommandés)

Interroger le serveur

HuggingFace Transformers

Pour une intégration Python directe et des expérimentations :

Exemple d'appel de fonction

Mistral Small 3.1 est l'un des meilleurs petits modèles pour l'utilisation d'outils :

Démarrage rapide Docker

Conseils pour les utilisateurs de Clore.ai

  • La RTX 4090 est le point idéal: À 0,5–2 $/jour, une seule RTX 4090 exécute Mistral Small 3.1 quantifié avec de la marge. Meilleur rapport coût/performance sur Clore.ai pour un LLM polyvalent.

  • Utilisez une température basse: Mistral AI recommande temperature=0.15 pour la plupart des tâches. Des températures plus élevées entraînent des sorties incohérentes avec ce modèle.

  • La RTX 3090 fonctionne aussi: À 0,3–1 $/jour, la RTX 3090 (24 Go) exécute la quantification Q4 avec Ollama sans problème. Légèrement plus lente que la 4090 mais à moitié prix.

  • Ollama pour les configurations rapides, vLLM pour la production: Ollama vous donne un modèle fonctionnel en 60 secondes. Pour des requêtes API concurrentes et un débit plus élevé, passez à vLLM.

  • L'appel de fonctions le rend spécial: De nombreux modèles 24B peuvent converser — peu peuvent appeler des outils de manière fiable. L'appel de fonctions de Mistral Small 3.1 est au niveau de GPT-4o Mini. Construisez des agents, des backends d'API et des pipelines d'automatisation en toute confiance.

Dépannage

Problème
Solution

OutOfMemoryError sur RTX 4090

Utilisez le modèle quantifié via Ollama ou load_in_4bit=True dans Transformers. Le BF16 complet nécessite ~55 Go.

Modèle Ollama introuvable

Utilisez ollama run mistral-small3.1 (nom officiel de la bibliothèque).

Erreurs de tokenizer vLLM

Passez toujours --tokenizer-mode mistral --config-format mistral --load-format mistral.

Mauvaise qualité de sortie

Définir temperature=0.15. Ajoutez une invite système. Mistral Small est sensible à la température.

Vision ne fonctionne pas sur 1 GPU

Les fonctionnalités Vision nécessitent plus de VRAM. Utilisez --tensor-parallel-size 2 ou réduisez --max-model-len.

Les appels de fonction renvoient vide

Ajoutez --tool-call-parser mistral --enable-auto-tool-choice à vLLM serve.

Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?