Mistral.rs

Inferencia LLM rapidísima escrita en Rust — servidor listo para producción con soporte GGUF, GGML, SafeTensors y API compatible con OpenAI.

🦀 Construido en Rust para rendimiento máximo | Soporte GGUF y modelos de visión | Licencia Apache-2.0


¿Qué es Mistral.rs?

Mistral.rs es un motor de inferencia LLM de alto rendimiento escrito íntegramente en Rust. Originalmente centrado en los modelos Mistral, ahora admite todo el panorama de LLMs modernos. La base en Rust ofrece:

  • Abstracciones sin costo — sin pausas de recolección de basura durante la inferencia

  • Seguridad de memoria — sin excepciones de puntero nulo ni fugas de memoria

  • Rendimiento determinista — latencia consistente sin la sobrecarga de JVM/Python

  • Optimizaciones en tiempo de compilación — SIMD, subprocesos y kernels GPU optimizados en tiempo de compilación

Características clave

  • Soporte GGUF — ejecutar cualquier modelo cuantizado (Q4_K_M, Q8_0, etc.)

  • ISQ (Cuantización In-Situ) — cuantizar al vuelo en el momento de la carga

  • PagedAttention — caché KV eficiente con agrupamiento continuo

  • Modelos Visión-Lenguaje — soporte para LLaVA, Phi-3 Vision, Idefics

  • Decodificación especulativa — inferencia más rápida con modelos borrador

  • X-LoRA — soporte escalable para adaptadores afinados

  • API REST compatible con OpenAI — reemplazo plug-and-play

Familias de modelos compatibles

Familia
Formato
Motor

Llama 2/3

GGUF, SafeTensors

Rust CUDA

Mistral/Mixtral

GGUF, SafeTensors

Rust CUDA

Phi-2/3

GGUF, SafeTensors

Rust CUDA

Gemma

GGUF, SafeTensors

Rust CUDA

Qwen 2

GGUF, SafeTensors

Rust CUDA

Starcoder 2

GGUF

Rust CUDA

LLaVA 1.5/1.6

SafeTensors

Visión

Phi-3 Vision

SafeTensors

Visión


Inicio rápido en Clore.ai

Paso 1: Encuentra un servidor GPU

En clore.aiarrow-up-right mercado:

  • Mínimo: 8GB VRAM (para modelos 7B Q4)

  • Recomendado: RTX 3090/4090 (24GB) para modelos más grandes

  • Se requiere CUDA 11.8+

Paso 2: Desplegar Mistral.rs con Docker

Mapeos de puertos:

Puerto del contenedor
Propósito

22

Acceso SSH

8080

Servidor REST API

Variantes de imagen disponibles:

Paso 3: Conectar y verificar


Ejecutando el servidor

Inicio rápido con modelo GGUF

Servir Mistral 7B (SafeTensors)

Servir con Cuantización In-Situ (ISQ)

ISQ cuantiza el modelo en el momento de la carga — no se necesita un modelo pre-cuantizado:

Modelo Visión-Lenguaje

Decodificación especulativa

circle-check

Uso de la API

Endpoints compatibles con OpenAI

Endpoint
Método
Descripción

/v1/chat/completions

POST

Completados de chat

/v1/completions

POST

Completaciones de texto

/v1/models

GET

Listar modelos

/v1/images/generations

POST

Generación de imágenes (VLMs)

/v1/re_isq

POST

Re-cuantizar modelo cargado

/health

GET

Verificación de salud

Ejemplo en Python

Respuesta por streaming

Entrada de visión/imagen

Ejemplos cURL


Opciones de configuración

Flags del servidor

Referencia de cuantización ISQ

Opción ISQ
Bits
Calidad
VRAM (7B)

Q2K

2

★★☆☆☆

~2.5GB

Q3K

3

★★★☆☆

~3.5GB

Q4_0

4

★★★★☆

~4.5GB

Q4K

4

★★★★☆

~4.5GB

Q5K

5

★★★★★

~5.5GB

Q6K

6

★★★★★

~6.5GB

Q8_0

8

★★★★★

~8GB

HQQ4

4

★★★★☆

~4.5GB

HQQ8

8

★★★★★

~8GB

circle-info

HQQ (Cuantización Semi-Cuadrática) a menudo logra mejor calidad que GGUF Q4 al mismo nivel de bits, especialmente para tareas que siguen instrucciones.


Funciones avanzadas

X-LoRA (Mezcla de adaptadores LoRA)

Ejecutar múltiples adaptadores afinados seleccionados dinámicamente por token:

Re-cuantizar en tiempo de ejecución

Registro de solicitudes


Ajuste de rendimiento

Optimizar para rendimiento (Throughput)

Optimizar para baja latencia

Monitorear rendimiento


Docker Compose


Construir desde el código fuente

Si la imagen Docker no coincide con tu versión de CUDA:

circle-exclamation

Solución de problemas

Biblioteca CUDA no encontrada

Falla la descarga del modelo

Puerto 8080 en uso

Memoria insuficiente durante la cuantización

triangle-exclamation

Recomendaciones de GPU en Clore.ai

Mistral.rs es un motor nativo en Rust — su baja sobrecarga significa que obtienes más rendimiento por dólar de GPU frente a servidores basados en Python.

GPU
VRAM
Precio en Clore.ai
Uso recomendado
Rendimiento (Mistral 7B Q4)

RTX 3090

24 GB

~$0.12/h

Mejor opción económica — 7B Q4/Q8, modelos de visión

~120 tok/s

RTX 4090

24 GB

~$0.70/h

Alto rendimiento 7B–34B, decodificación especulativa

~200 tok/s

A100 40GB

40 GB

~$1.20/h

Producción 34B–70B servicio Q4

~160 tok/s

A100 80GB

80 GB

~$2.00/h

Precisión completa 70B, multi-modelo

~185 tok/s

Por qué la RTX 3090 destaca aquí: Los kernels Rust CUDA de Mistral.rs evitan la sobrecarga del GIL de Python y las pausas de recolección de basura que afectan a los servidores Python. Una RTX 3090 ejecutando Mistral 7B Q4_K_M ofrece 120 tok/s — comparable a vLLM en el mismo hardware a una fracción del costo ($0.12/hr frente a proveedores en la nube que cobran $1–2/hr).

Decodificación especulativa: Empareja un modelo grande (34B) con un modelo borrador pequeño (3B) para una aceleración de 2–3× sin pérdida de calidad. La RTX 4090 es ideal para este patrón.


Recursos

Última actualización

¿Te fue útil?