Mistral Large 3 (675B MoE)
Ejecuta Mistral Large 3 — un modelo fronterizo MoE de 675B con 41B parámetros activos en GPUs de Clore.ai
Mistral Large 3 es el modelo de peso abierto más potente de Mistral AI, lanzado en diciembre de 2025 bajo la Licencia Apache 2.0. Es un modelo de Mezcla de Expertos (MoE) con 675B parámetros totales pero solo 41B activos por token — ofreciendo rendimiento de vanguardia a una fracción del cálculo de un modelo denso de 675B. Con soporte multimodal nativo (texto + imágenes), una ventana de contexto de 256K y capacidades agenticas de primera clase, compite directamente con modelos tipo GPT-4o y Claude mientras puede alojarse completamente de forma local.
HuggingFace: mistralai/Mistral-Large-3-675B-Instruct-2512 Ollama: mistral-large-3:675b Licencia: Apache 2.0
Características clave
675B totales / 41B parámetros activos — La eficiencia MoE significa que obtienes rendimiento de vanguardia sin activar todos los parámetros
Licencia Apache 2.0 — totalmente abierto para uso comercial y personal, sin restricciones
Nativamente multimodal — entiende tanto texto como imágenes a través de un codificador de visión de 2.5B
Ventana de contexto de 256K — maneja documentos masivos, bases de código y conversaciones largas
Capacidades agenticas de primera clase — llamada de funciones nativa, modo JSON, uso de herramientas
Múltiples opciones de despliegue — FP8 en H200/B200, NVFP4 en H100/A100, GGUF cuantizado para GPUs de consumo
Arquitectura del modelo
Arquitectura
Mezcla de Expertos (MoE) granular
Parámetros totales
675B
Parámetros activos
41B (por token)
Codificador de visión
2.5B parámetros
Ventana de contexto
256K tokens
Entrenamiento
3.000× GPUs H200
Lanzamiento
Diciembre de 2025
Requisitos
GPU
4× RTX 4090
8× A100 80GB
8× H100/H200
VRAM
4×24GB (96GB)
8×80GB (640GB)
8×80GB (640GB)
RAM
128GB
256GB
256GB
Disco
400GB
700GB
1.4TB
CUDA
12.0+
12.0+
12.0+
Configuración recomendada de Clore.ai:
Mejor relación calidad-precio: 4× RTX 4090 (~$2–8/día) — ejecutar cuantización Q4 GGUF vía llama.cpp u Ollama
Calidad de producción: 8× A100 80GB (~$16–32/día) — NVFP4 con contexto completo vía vLLM
Rendimiento máximo: 8× H100 (~$24–48/día) — FP8, contexto completo de 256K
Inicio rápido con Ollama
La forma más rápida de ejecutar Mistral Large 3 en una instancia Clore.ai con múltiples GPUs:
Inicio rápido con vLLM (Producción)
Para servicio de grado de producción con API compatible con OpenAI:
Ejemplos de uso
1. Finalización de chat (API compatible con OpenAI)
Una vez que vLLM esté en funcionamiento, usa cualquier cliente compatible con OpenAI:
2. Llamada de funciones / Uso de herramientas
Mistral Large 3 sobresale en llamadas estructuradas a herramientas:
3. Visión — Análisis de imágenes
Mistral Large 3 entiende imágenes de forma nativa:
Consejos para usuarios de Clore.ai
Comienza con NVFP4 en A100s — El
Mistral-Large-3-675B-Instruct-2512-NVFP4el checkpoint está específicamente diseñado para nodos A100/H100 y ofrece calidad casi sin pérdida con la mitad de huella de memoria de FP8.Usa Ollama para experimentos rápidos — Si tienes una instancia 4× RTX 4090, Ollama maneja la cuantización GGUF automáticamente. Perfecto para probar antes de comprometerte con una configuración de producción vLLM.
Expón la API de forma segura — Al ejecutar vLLM en una instancia Clore.ai, usa tunelización SSH (
ssh -L 8000:localhost:8000 root@<ip>) en lugar de exponer el puerto 8000 directamente.Reduce
max-model-lenpara ahorrar VRAM — Si no necesitas el contexto completo de 256K, establece--max-model-len 32768o65536para reducir significativamente el uso de memoria de la caché KV.Considera las alternativas densas — Para configuraciones de GPU única, Mistral 3 14B (
mistral3:14ben Ollama) ofrece un rendimiento excelente en una sola RTX 4090 y es de la misma familia de modelos.
Solución de problemas
CUDA fuera de memoria en vLLM
Reducir --max-model-len (prueba 32768), aumenta --tensor-parallel-size, o usa checkpoint NVFP4
Velocidad de generación lenta
Asegúrate de --tensor-parallel-size coincida con el número de GPUs; habilita decodificación especulativa con el checkpoint Eagle
Ollama no carga 675B
Asegúrate de tener 96GB+ de VRAM entre las GPUs; Ollama necesita OLLAMA_NUM_PARALLEL=1 para modelos grandes
tokenizer_mode mistral errores
Debes pasar las tres banderas: --tokenizer-mode mistral --config-format mistral --load-format mistral
La visión no funciona
Asegúrate de que las imágenes tengan una relación de aspecto cercana a 1:1; evita imágenes muy anchas/estrechas para obtener mejores resultados
Descarga demasiado lenta
Usa huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 con HF_TOKEN establecer
Lecturas adicionales
Blog de anuncio de Mistral 3 — Publicación oficial de lanzamiento con benchmarks
Ficha del modelo en HuggingFace — Instrucciones de despliegue y resultados de benchmarks
Versión cuantizada NVFP4 — Optimizada para A100/H100
GGUF cuantizado (Unsloth) — Para llama.cpp y Ollama
Documentación vLLM — Marco de servicio para producción
Guía Day-0 de Red Hat — Despliegue vLLM paso a paso
Última actualización
¿Te fue útil?