Mistral Large 3 (675B MoE)

Exécutez Mistral Large 3 — un modèle de pointe 675B MoE avec 41B de paramètres actifs sur les GPU Clore.ai

Mistral Large 3 est le modèle open-weight le plus puissant de Mistral AI, publié en décembre 2025 sous le Licence Apache 2.0. C'est un modèle Mixture-of-Experts (MoE) avec 675 milliards de paramètres au total mais seulement 41 milliards actifs par token — offrant des performances de pointe à une fraction du coût de calcul d'un modèle dense de 675 milliards. Avec un support multimodal natif (texte + images), une fenêtre de contexte de 256K et des capacités agentiques de premier ordre, il concurrence directement GPT-4o et les modèles de la classe Claude tout en étant entièrement auto-hébergeable.

HuggingFace : mistralai/Mistral-Large-3-675B-Instruct-2512arrow-up-right Ollama : mistral-large-3:675barrow-up-right Licence : Apache 2.0

Principales caractéristiques

  • 675 milliards au total / 41 milliards de paramètres actifs — l'efficacité MoE signifie que vous obtenez des performances de pointe sans activer tous les paramètres

  • Licence Apache 2.0 — entièrement ouvert pour un usage commercial et personnel, sans restrictions

  • Nativement multimodal — comprend à la fois le texte et les images via un encodeur vision de 2,5 milliards de paramètres

  • fenêtre de contexte 256K — gère des documents volumineux, des bases de code et de longues conversations

  • Capacités agentiques de premier plan — appel de fonction natif, mode JSON, utilisation d'outils

  • Multiples options de déploiement — FP8 sur H200/B200, NVFP4 sur H100/A100, GGUF quantifié pour GPUs grand public

Architecture du modèle

Composant
Détails

Architecture

Mixture-of-Experts (MoE) granulaires

Paramètres totaux

675 milliards

Paramètres actifs

41 milliards (par token)

Encodeur vision

2,5 milliards de paramètres

Fenêtre de contexte

256K tokens

Entraînement

3 000× GPUs H200

Publication

Décembre 2025

Exigences

Configuration
Budget (Q4 GGUF)
Standard (NVFP4)
Complet (FP8)

GPU

4× RTX 4090

8× A100 80GB

8× H100/H200

VRAM

4×24GB (96GB)

8×80GB (640GB)

8×80GB (640GB)

RAM

128Go

256GB

256GB

Disque

400GB

700GB

1,4TB

CUDA

12.0+

12.0+

12.0+

Configuration Clore.ai recommandée :

  • Meilleur rapport qualité/prix : 4× RTX 4090 (~2–8 $/jour) — exécutez la quantification Q4 GGUF via llama.cpp ou Ollama

  • Qualité production : 8× A100 80GB (~16–32 $/jour) — NVFP4 avec contexte complet via vLLM

  • Performance maximale : 8× H100 (~24–48 $/jour) — FP8, contexte complet 256K

Démarrage rapide avec Ollama

La manière la plus rapide d'exécuter Mistral Large 3 sur une instance Clore.ai multi-GPU :

Démarrage rapide avec vLLM (Production)

Pour un service de qualité production avec une API compatible OpenAI :

Exemples d'utilisation

1. Complétion de chat (API compatible OpenAI)

Une fois vLLM en cours d'exécution, utilisez n'importe quel client compatible OpenAI :

2. Appel de fonction / Utilisation d'outils

Mistral Large 3 excelle dans l'appel d'outils structuré :

3. Vision — Analyse d'images

Mistral Large 3 comprend nativement les images :

Conseils pour les utilisateurs de Clore.ai

  1. Commencez avec NVFP4 sur A100s — Le Mistral-Large-3-675B-Instruct-2512-NVFP4 le checkpoint est spécialement conçu pour les nœuds A100/H100 et offre une qualité quasi sans perte avec une empreinte mémoire moitié moindre que le FP8.

  2. Utilisez Ollama pour des expériences rapides — Si vous disposez d'une instance 4× RTX 4090, Ollama gère la quantification GGUF automatiquement. Parfait pour tester avant de s'engager dans une configuration vLLM en production.

  3. Exposez l'API de manière sécurisée — Lors de l'exécution de vLLM sur une instance Clore.ai, utilisez le tunneling SSH (ssh -L 8000:localhost:8000 root@<ip>) plutôt que d'exposer directement le port 8000.

  4. Plus bas max-model-len pour économiser de la VRAM — Si vous n'avez pas besoin du contexte complet 256K, définissez --max-model-len 32768 ou 65536 pour réduire significativement l'utilisation mémoire du cache KV.

  5. Envisagez les alternatives denses — Pour les configurations mono-GPU, Mistral 3 14B (mistral3:14b dans Ollama) offre d'excellentes performances sur un seul RTX 4090 et appartient à la même famille de modèles.

Dépannage

Problème
Solution

CUDA out of memory sur vLLM

Réduire --max-model-len (essayez 32768), augmentez --tensor-parallel-size, ou utilisez le checkpoint NVFP4

Vitesse de génération lente

Assurez-vous que --tensor-parallel-size correspond à votre nombre de GPU ; activez le décodage spéculatif avec le checkpoint Eagle

Ollama n'arrive pas à charger le 675B

Assurez-vous d'avoir 96GB+ de VRAM répartis sur les GPUs ; Ollama a besoin de OLLAMA_NUM_PARALLEL=1 pour les grands modèles

tokenizer_mode mistral erreurs

Vous devez passer les trois flags : --tokenizer-mode mistral --config-format mistral --load-format mistral

Vision ne fonctionne pas

Assurez-vous que les images sont proches d'un ratio d'aspect 1:1 ; évitez les images très larges/étroites pour de meilleurs résultats

Téléchargement trop lent

Utilisez huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 avec HF_TOKEN définir

Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?