Mistral Large 3 (675B MoE)

Ejecuta Mistral Large 3 — un modelo fronterizo MoE de 675B con 41B parámetros activos en GPUs de Clore.ai

Mistral Large 3 es el modelo de peso abierto más potente de Mistral AI, lanzado en diciembre de 2025 bajo la Licencia Apache 2.0. Es un modelo de Mezcla de Expertos (MoE) con 675B parámetros totales pero solo 41B activos por token — ofreciendo rendimiento de vanguardia a una fracción del cálculo de un modelo denso de 675B. Con soporte multimodal nativo (texto + imágenes), una ventana de contexto de 256K y capacidades agenticas de primera clase, compite directamente con modelos tipo GPT-4o y Claude mientras puede alojarse completamente de forma local.

HuggingFace: mistralai/Mistral-Large-3-675B-Instruct-2512arrow-up-right Ollama: mistral-large-3:675barrow-up-right Licencia: Apache 2.0

Características clave

  • 675B totales / 41B parámetros activos — La eficiencia MoE significa que obtienes rendimiento de vanguardia sin activar todos los parámetros

  • Licencia Apache 2.0 — totalmente abierto para uso comercial y personal, sin restricciones

  • Nativamente multimodal — entiende tanto texto como imágenes a través de un codificador de visión de 2.5B

  • Ventana de contexto de 256K — maneja documentos masivos, bases de código y conversaciones largas

  • Capacidades agenticas de primera clase — llamada de funciones nativa, modo JSON, uso de herramientas

  • Múltiples opciones de despliegue — FP8 en H200/B200, NVFP4 en H100/A100, GGUF cuantizado para GPUs de consumo

Arquitectura del modelo

Componente
Detalles

Arquitectura

Mezcla de Expertos (MoE) granular

Parámetros totales

675B

Parámetros activos

41B (por token)

Codificador de visión

2.5B parámetros

Ventana de contexto

256K tokens

Entrenamiento

3.000× GPUs H200

Lanzamiento

Diciembre de 2025

Requisitos

Configuración
Presupuesto (Q4 GGUF)
Estándar (NVFP4)
Completo (FP8)

GPU

4× RTX 4090

8× A100 80GB

8× H100/H200

VRAM

4×24GB (96GB)

8×80GB (640GB)

8×80GB (640GB)

RAM

128GB

256GB

256GB

Disco

400GB

700GB

1.4TB

CUDA

12.0+

12.0+

12.0+

Configuración recomendada de Clore.ai:

  • Mejor relación calidad-precio: 4× RTX 4090 (~$2–8/día) — ejecutar cuantización Q4 GGUF vía llama.cpp u Ollama

  • Calidad de producción: 8× A100 80GB (~$16–32/día) — NVFP4 con contexto completo vía vLLM

  • Rendimiento máximo: 8× H100 (~$24–48/día) — FP8, contexto completo de 256K

Inicio rápido con Ollama

La forma más rápida de ejecutar Mistral Large 3 en una instancia Clore.ai con múltiples GPUs:

Inicio rápido con vLLM (Producción)

Para servicio de grado de producción con API compatible con OpenAI:

Ejemplos de uso

1. Finalización de chat (API compatible con OpenAI)

Una vez que vLLM esté en funcionamiento, usa cualquier cliente compatible con OpenAI:

2. Llamada de funciones / Uso de herramientas

Mistral Large 3 sobresale en llamadas estructuradas a herramientas:

3. Visión — Análisis de imágenes

Mistral Large 3 entiende imágenes de forma nativa:

Consejos para usuarios de Clore.ai

  1. Comienza con NVFP4 en A100s — El Mistral-Large-3-675B-Instruct-2512-NVFP4 el checkpoint está específicamente diseñado para nodos A100/H100 y ofrece calidad casi sin pérdida con la mitad de huella de memoria de FP8.

  2. Usa Ollama para experimentos rápidos — Si tienes una instancia 4× RTX 4090, Ollama maneja la cuantización GGUF automáticamente. Perfecto para probar antes de comprometerte con una configuración de producción vLLM.

  3. Expón la API de forma segura — Al ejecutar vLLM en una instancia Clore.ai, usa tunelización SSH (ssh -L 8000:localhost:8000 root@<ip>) en lugar de exponer el puerto 8000 directamente.

  4. Reduce max-model-len para ahorrar VRAM — Si no necesitas el contexto completo de 256K, establece --max-model-len 32768 o 65536 para reducir significativamente el uso de memoria de la caché KV.

  5. Considera las alternativas densas — Para configuraciones de GPU única, Mistral 3 14B (mistral3:14b en Ollama) ofrece un rendimiento excelente en una sola RTX 4090 y es de la misma familia de modelos.

Solución de problemas

Problema
Solución

CUDA fuera de memoria en vLLM

Reducir --max-model-len (prueba 32768), aumenta --tensor-parallel-size, o usa checkpoint NVFP4

Velocidad de generación lenta

Asegúrate de --tensor-parallel-size coincida con el número de GPUs; habilita decodificación especulativa con el checkpoint Eagle

Ollama no carga 675B

Asegúrate de tener 96GB+ de VRAM entre las GPUs; Ollama necesita OLLAMA_NUM_PARALLEL=1 para modelos grandes

tokenizer_mode mistral errores

Debes pasar las tres banderas: --tokenizer-mode mistral --config-format mistral --load-format mistral

La visión no funciona

Asegúrate de que las imágenes tengan una relación de aspecto cercana a 1:1; evita imágenes muy anchas/estrechas para obtener mejores resultados

Descarga demasiado lenta

Usa huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 con HF_TOKEN establecer

Lecturas adicionales

Última actualización

¿Te fue útil?