Mistral Large 3 (675B MoE)
Exécutez Mistral Large 3 — un modèle de pointe 675B MoE avec 41B de paramètres actifs sur les GPU Clore.ai
Mistral Large 3 est le modèle open-weight le plus puissant de Mistral AI, publié en décembre 2025 sous le Licence Apache 2.0. C'est un modèle Mixture-of-Experts (MoE) avec 675 milliards de paramètres au total mais seulement 41 milliards actifs par token — offrant des performances de pointe à une fraction du coût de calcul d'un modèle dense de 675 milliards. Avec un support multimodal natif (texte + images), une fenêtre de contexte de 256K et des capacités agentiques de premier ordre, il concurrence directement GPT-4o et les modèles de la classe Claude tout en étant entièrement auto-hébergeable.
HuggingFace : mistralai/Mistral-Large-3-675B-Instruct-2512 Ollama : mistral-large-3:675b Licence : Apache 2.0
Principales caractéristiques
675 milliards au total / 41 milliards de paramètres actifs — l'efficacité MoE signifie que vous obtenez des performances de pointe sans activer tous les paramètres
Licence Apache 2.0 — entièrement ouvert pour un usage commercial et personnel, sans restrictions
Nativement multimodal — comprend à la fois le texte et les images via un encodeur vision de 2,5 milliards de paramètres
fenêtre de contexte 256K — gère des documents volumineux, des bases de code et de longues conversations
Capacités agentiques de premier plan — appel de fonction natif, mode JSON, utilisation d'outils
Multiples options de déploiement — FP8 sur H200/B200, NVFP4 sur H100/A100, GGUF quantifié pour GPUs grand public
Architecture du modèle
Architecture
Mixture-of-Experts (MoE) granulaires
Paramètres totaux
675 milliards
Paramètres actifs
41 milliards (par token)
Encodeur vision
2,5 milliards de paramètres
Fenêtre de contexte
256K tokens
Entraînement
3 000× GPUs H200
Publication
Décembre 2025
Exigences
GPU
4× RTX 4090
8× A100 80GB
8× H100/H200
VRAM
4×24GB (96GB)
8×80GB (640GB)
8×80GB (640GB)
RAM
128Go
256GB
256GB
Disque
400GB
700GB
1,4TB
CUDA
12.0+
12.0+
12.0+
Configuration Clore.ai recommandée :
Meilleur rapport qualité/prix : 4× RTX 4090 (~2–8 $/jour) — exécutez la quantification Q4 GGUF via llama.cpp ou Ollama
Qualité production : 8× A100 80GB (~16–32 $/jour) — NVFP4 avec contexte complet via vLLM
Performance maximale : 8× H100 (~24–48 $/jour) — FP8, contexte complet 256K
Démarrage rapide avec Ollama
La manière la plus rapide d'exécuter Mistral Large 3 sur une instance Clore.ai multi-GPU :
Démarrage rapide avec vLLM (Production)
Pour un service de qualité production avec une API compatible OpenAI :
Exemples d'utilisation
1. Complétion de chat (API compatible OpenAI)
Une fois vLLM en cours d'exécution, utilisez n'importe quel client compatible OpenAI :
2. Appel de fonction / Utilisation d'outils
Mistral Large 3 excelle dans l'appel d'outils structuré :
3. Vision — Analyse d'images
Mistral Large 3 comprend nativement les images :
Conseils pour les utilisateurs de Clore.ai
Commencez avec NVFP4 sur A100s — Le
Mistral-Large-3-675B-Instruct-2512-NVFP4le checkpoint est spécialement conçu pour les nœuds A100/H100 et offre une qualité quasi sans perte avec une empreinte mémoire moitié moindre que le FP8.Utilisez Ollama pour des expériences rapides — Si vous disposez d'une instance 4× RTX 4090, Ollama gère la quantification GGUF automatiquement. Parfait pour tester avant de s'engager dans une configuration vLLM en production.
Exposez l'API de manière sécurisée — Lors de l'exécution de vLLM sur une instance Clore.ai, utilisez le tunneling SSH (
ssh -L 8000:localhost:8000 root@<ip>) plutôt que d'exposer directement le port 8000.Plus bas
max-model-lenpour économiser de la VRAM — Si vous n'avez pas besoin du contexte complet 256K, définissez--max-model-len 32768ou65536pour réduire significativement l'utilisation mémoire du cache KV.Envisagez les alternatives denses — Pour les configurations mono-GPU, Mistral 3 14B (
mistral3:14bdans Ollama) offre d'excellentes performances sur un seul RTX 4090 et appartient à la même famille de modèles.
Dépannage
CUDA out of memory sur vLLM
Réduire --max-model-len (essayez 32768), augmentez --tensor-parallel-size, ou utilisez le checkpoint NVFP4
Vitesse de génération lente
Assurez-vous que --tensor-parallel-size correspond à votre nombre de GPU ; activez le décodage spéculatif avec le checkpoint Eagle
Ollama n'arrive pas à charger le 675B
Assurez-vous d'avoir 96GB+ de VRAM répartis sur les GPUs ; Ollama a besoin de OLLAMA_NUM_PARALLEL=1 pour les grands modèles
tokenizer_mode mistral erreurs
Vous devez passer les trois flags : --tokenizer-mode mistral --config-format mistral --load-format mistral
Vision ne fonctionne pas
Assurez-vous que les images sont proches d'un ratio d'aspect 1:1 ; évitez les images très larges/étroites pour de meilleurs résultats
Téléchargement trop lent
Utilisez huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 avec HF_TOKEN définir
Lectures complémentaires
Annonce de Mistral 3 sur le blog — Article de lancement officiel avec benchmarks
Fiche modèle HuggingFace — Instructions de déploiement et résultats de benchmarks
Version quantifiée NVFP4 — Optimisée pour A100/H100
GGUF Quantifié (Unsloth) — Pour llama.cpp et Ollama
Documentation vLLM — Cadre de service en production
Guide Day-0 Red Hat — Déploiement vLLM étape par étape
Mis à jour
Ce contenu vous a-t-il été utile ?