Mistral Small 3.1

Despliega Mistral Small 3.1 (24B) en Clore.ai — el modelo de producción ideal para una sola GPU

Mistral Small 3.1, lanzado en marzo de 2025 por Mistral AI, es un modelo denso de 24 mil millones de parámetros que rinde mucho más de lo que su tamaño indica. Con una ventana de contexto de 128K, capacidades de visión nativas, llamadas a funciones de primera clase y un Licencia Apache 2.0, es posiblemente el mejor modelo que puedes ejecutar en una sola RTX 4090. Supera a GPT-4o Mini y Claude 3.5 Haiku en la mayoría de los benchmarks mientras cabe cómodamente en hardware de consumo cuando se cuantiza.

Características clave

  • 24B parámetros densos — sin la complejidad MoE, implementación sencilla

  • Ventana de contexto de 128K — puntaje RULER 128K de 81.2%, supera a GPT-4o Mini (65.8%)

  • Visión nativa — analiza imágenes, gráficos, documentos y capturas de pantalla

  • Licencia Apache 2.0 — totalmente abierto para uso comercial y personal

  • Llamadas a funciones de élite — uso nativo de herramientas con salida JSON, ideal para flujos de trabajo agentivos

  • Multilingüe — más de 25 idiomas incluyendo CJK, árabe, hindi y lenguas europeas

Requisitos

Componente
Cuantizado (Q4)
Precisión completa (BF16)

GPU

1× RTX 4090 24GB

2× RTX 4090 o 1× H100

VRAM

~16GB

~55GB

RAM

32GB

64GB

Disco

20GB

50GB

CUDA

11.8+

12.0+

recomendación de Clore.ai: RTX 4090 (~$0.5–2/día) para inferencia cuantizada — mejor relación precio/rendimiento

Inicio rápido con Ollama

La forma más rápida de poner en marcha Mistral Small 3.1:

Ollama como API compatible con OpenAI

Ollama con Visión

Configuración de vLLM (Producción)

Para cargas de trabajo de producción con alto rendimiento y solicitudes concurrentes:

Servir en GPU única (solo texto)

Servir con Visión (se recomiendan 2 GPUs)

Consultar el servidor

HuggingFace Transformers

Para integración directa en Python y experimentación:

Ejemplo de llamadas a funciones

Mistral Small 3.1 es uno de los mejores modelos pequeños para el uso de herramientas:

Inicio rápido con Docker

Consejos para usuarios de Clore.ai

  • RTX 4090 es el punto ideal: A $0.5–2/día, una sola RTX 4090 ejecuta Mistral Small 3.1 cuantizado con margen. Mejor relación costo/rendimiento en Clore.ai para un LLM de propósito general.

  • Usar baja temperatura: Mistral AI recomienda temperature=0.15 para la mayoría de las tareas. Temperaturas más altas provocan salida inconsistente con este modelo.

  • RTX 3090 también funciona: A $0.3–1/día, la RTX 3090 (24GB) ejecuta Q4 cuantizado con Ollama sin problemas. Un poco más lenta que la 4090 pero a la mitad de precio.

  • Ollama para configuraciones rápidas, vLLM para producción: Ollama te da un modelo funcionando en 60 segundos. Para solicitudes API concurrentes y mayor rendimiento, cambia a vLLM.

  • Las llamadas a funciones la hacen especial: Muchos modelos de 24B pueden chatear — pocos pueden llamar herramientas de manera fiable. Las llamadas a funciones de Mistral Small 3.1 están a la par con GPT-4o Mini. Construye agentes, backends de API y pipelines de automatización con confianza.

Solución de problemas

Problema
Solución

OutOfMemoryError en RTX 4090

Usa el modelo cuantizado vía Ollama o load_in_4bit=True en Transformers. BF16 completo necesita ~55GB.

Modelo de Ollama no encontrado

Usa ollama run mistral-small3.1 (nombre oficial de la biblioteca).

Errores del tokenizador de vLLM

Siempre pasa --tokenizer-mode mistral --config-format mistral --load-format mistral.

Mala calidad de salida

Establecer temperature=0.15. Añade un prompt de sistema. Mistral Small es sensible a la temperatura.

Visión no funciona en 1 GPU

Las funciones de visión necesitan más VRAM. Usa --tensor-parallel-size 2 o reduce --max-model-len.

Las llamadas a funciones devuelven vacío

Agregar --tool-call-parser mistral --enable-auto-tool-choice para vLLM serve.

Lecturas adicionales

Última actualización

¿Te fue útil?