Mistral Large 3 (675B MoE)

Ejecuta Mistral Large 3: un modelo frontier de 675B MoE con 41B parámetros activos en las GPU de Clore.ai

Mistral Large 3 es el modelo de peso abierto más potente de Mistral AI, lanzado en diciembre de 2025 bajo la Licencia Apache 2.0. Es un modelo de Mezcla de Expertos (MoE) con 675B parámetros totales pero solo 41B activos por token — ofreciendo rendimiento de vanguardia a una fracción del cálculo de un modelo denso de 675B. Con soporte multimodal nativo (texto + imágenes), una ventana de contexto de 256K y capacidades agenticas de primera clase, compite directamente con modelos tipo GPT-4o y Claude mientras puede alojarse completamente de forma local.

HuggingFace: mistralai/Mistral-Large-3-675B-Instruct-2512 Ollama: mistral-large-3:675b Licencia: Apache 2.0

Características clave

675B totales / 41B parámetros activos — La eficiencia MoE significa que obtienes rendimiento de vanguardia sin activar todos los parámetros
Licencia Apache 2.0 — totalmente abierto para uso comercial y personal, sin restricciones
Nativamente multimodal — entiende tanto texto como imágenes a través de un codificador de visión de 2.5B
Ventana de contexto de 256K — maneja documentos masivos, bases de código y conversaciones largas
Capacidades agenticas de primera clase — llamada de funciones nativa, modo JSON, uso de herramientas
Múltiples opciones de despliegue — FP8 en H200/B200, NVFP4 en H100/A100, GGUF cuantizado para GPUs de consumo

Arquitectura del modelo

Componente

Detalles

Arquitectura

Mezcla de Expertos (MoE) granular

Parámetros totales

675B

Parámetros activos

41B (por token)

Codificador de visión

2.5B parámetros

Ventana de contexto

256K tokens

Entrenamiento

3.000× GPUs H200

Lanzamiento

Diciembre de 2025

Requisitos

Configuración

Presupuesto (Q4 GGUF)

Estándar (NVFP4)

Completo (FP8)

GPU

4× RTX 4090

8× A100 80GB

8× H100/H200

VRAM

4×24GB (96GB)

8×80GB (640GB)

RAM

128GB

256GB

Disco

400GB

700GB

1.4TB

CUDA

12.0+

Configuración recomendada de Clore.ai:

Mejor relación calidad-precio: 4× RTX 4090 (~$2–8/día) — ejecutar cuantización Q4 GGUF vía llama.cpp u Ollama
Calidad de producción: 8× A100 80GB (~$16–32/día) — NVFP4 con contexto completo vía vLLM
Rendimiento máximo: 8× H100 (~$24–48/día) — FP8, contexto completo de 256K

Inicio rápido con Ollama

La forma más rápida de ejecutar Mistral Large 3 en una instancia Clore.ai con múltiples GPUs:

# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Ejecuta el modelo 675B (requiere multi-GPU, ~96GB+ VRAM para Q4)
ollama run mistral-large-3:675b

# Para las variantes densas más pequeñas (GPU única):
ollama run mistral3:14b    # 14B denso — cabe en RTX 3060+
ollama run mistral3:8b     # 8B denso — cabe en cualquier GPU

Inicio rápido con vLLM (Producción)

Para servicio de grado de producción con API compatible con OpenAI:

# Instala vLLM
pip install vllm

# Sirve con cuantización NVFP4 en 8× A100/H100
vllm serve mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 \
    --tensor-parallel-size 8 \
    --tokenizer-mode mistral \
    --config-format mistral \
    --load-format mistral \
    --max-model-len 65536 \
    --gpu-memory-utilization 0.90 \
    --enable-auto-tool-choice \
    --tool-call-parser mistral \
    --host 0.0.0.0 \
    --port 8000

# Para FP8 (pesos originales, máxima calidad):
vllm serve mistralai/Mistral-Large-3-675B-Instruct-2512 \
    --tensor-parallel-size 8 \
    --tokenizer-mode mistral \
    --config-format mistral \
    --load-format mistral \
    --max-model-len 131072 \
    --host 0.0.0.0 \
    --port 8000

Ejemplos de uso

1. Finalización de chat (API compatible con OpenAI)

Una vez que vLLM esté en funcionamiento, usa cualquier cliente compatible con OpenAI:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="no-necesaria"
)

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[
        {"role": "system", "content": "Eres un asistente de programación servicial."},
        {"role": "user", "content": "Escribe un scraper web asíncrono en Python usando aiohttp y BeautifulSoup."}
    ],
    temperature=0.1,
    max_tokens=4096
)

print(response.choices[0].message.content)

2. Llamada de funciones / Uso de herramientas

Mistral Large 3 sobresale en llamadas estructuradas a herramientas:

import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Obtener el clima actual para una ubicación",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "Nombre de la ciudad"},
                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
                },
                "required": ["location"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[{"role": "user", "content": "¿Cuál es el clima en Tokio?"}],
    tools=tools,
    tool_choice="auto"
)

tool_call = response.choices[0].message.tool_calls[0]
print(f"Function: {tool_call.function.name}")
print(f"Args: {tool_call.function.arguments}")

3. Visión — Análisis de imágenes

Mistral Large 3 entiende imágenes de forma nativa:

import base64
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

# Codificar imagen
with open("diagram.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Describe este diagrama de arquitectura en detalle."},
            {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_b64}"}}
        ]
    }],
    max_tokens=2048
)

print(response.choices[0].message.content)

Consejos para usuarios de Clore.ai

Comienza con NVFP4 en A100s — El Mistral-Large-3-675B-Instruct-2512-NVFP4 el checkpoint está específicamente diseñado para nodos A100/H100 y ofrece calidad casi sin pérdida con la mitad de huella de memoria de FP8.
Usa Ollama para experimentos rápidos — Si tienes una instancia 4× RTX 4090, Ollama maneja la cuantización GGUF automáticamente. Perfecto para probar antes de comprometerte con una configuración de producción vLLM.
Expón la API de forma segura — Al ejecutar vLLM en una instancia Clore.ai, usa tunelización SSH (ssh -L 8000:localhost:8000 root@<ip>) en lugar de exponer el puerto 8000 directamente.
Reduce max-model-len para ahorrar VRAM — Si no necesitas el contexto completo de 256K, establece --max-model-len 32768 o 65536 para reducir significativamente el uso de memoria de la caché KV.
Considera las alternativas densas — Para configuraciones de GPU única, Mistral 3 14B (mistral3:14b en Ollama) ofrece un rendimiento excelente en una sola RTX 4090 y es de la misma familia de modelos.

Solución de problemas

Problema

Solución

CUDA fuera de memoria en vLLM

Reducir --max-model-len (prueba 32768), aumenta --tensor-parallel-size, o usa checkpoint NVFP4

Velocidad de generación lenta

Asegúrate de --tensor-parallel-size coincida con el número de GPUs; habilita decodificación especulativa con el checkpoint Eagle

Ollama no carga 675B

Asegúrate de tener 96GB+ de VRAM entre las GPUs; Ollama necesita OLLAMA_NUM_PARALLEL=1 para modelos grandes

tokenizer_mode mistral errores

Debes pasar las tres banderas: --tokenizer-mode mistral --config-format mistral --load-format mistral

La visión no funciona

Asegúrate de que las imágenes tengan una relación de aspecto cercana a 1:1; evita imágenes muy anchas/estrechas para obtener mejores resultados

Descarga demasiado lenta

Usa huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4 con HF_TOKEN establecer

Lecturas adicionales

Blog de anuncio de Mistral 3 — Publicación oficial de lanzamiento con benchmarks
Ficha del modelo en HuggingFace — Instrucciones de despliegue y resultados de benchmarks
Versión cuantizada NVFP4 — Optimizada para A100/H100
GGUF cuantizado (Unsloth) — Para llama.cpp y Ollama
Documentación vLLM — Marco de servicio para producción
Guía Day-0 de Red Hat — Despliegue vLLM paso a paso

AnteriorKimi K2.5 SiguienteMiMo-V2-Flash

Última actualización hace 21 días

¿Te fue útil?

hashtagCaracterísticas clave

hashtagArquitectura del modelo

hashtagRequisitos

hashtagInicio rápido con Ollama

hashtagInicio rápido con vLLM (Producción)

hashtagEjemplos de uso

hashtag1. Finalización de chat (API compatible con OpenAI)

hashtag2. Llamada de funciones / Uso de herramientas

hashtag3. Visión — Análisis de imágenes

hashtagConsejos para usuarios de Clore.ai

hashtagSolución de problemas

hashtagLecturas adicionales