Mistral.rs
¿Qué es Mistral.rs?
Características clave
Familias de modelos compatibles
Familia
Formato
Motor
Inicio rápido en Clore.ai
Paso 1: Encuentra un servidor GPU
Paso 2: Desplegar Mistral.rs con Docker
Puerto del contenedor
Propósito
Paso 3: Conectar y verificar
Ejecutando el servidor
Inicio rápido con modelo GGUF
Servir Mistral 7B (SafeTensors)
Servir con Cuantización In-Situ (ISQ)
Modelo Visión-Lenguaje
Decodificación especulativa
Uso de la API
Endpoints compatibles con OpenAI
Endpoint
Método
Descripción
Ejemplo en Python
Respuesta por streaming
Entrada de visión/imagen
Ejemplos cURL
Opciones de configuración
Flags del servidor
Referencia de cuantización ISQ
Opción ISQ
Bits
Calidad
VRAM (7B)
Funciones avanzadas
X-LoRA (Mezcla de adaptadores LoRA)
Re-cuantizar en tiempo de ejecución
Registro de solicitudes
Ajuste de rendimiento
Optimizar para rendimiento (Throughput)
Optimizar para baja latencia
Monitorear rendimiento
Docker Compose
Construir desde el código fuente
Solución de problemas
Biblioteca CUDA no encontrada
Falla la descarga del modelo
Puerto 8080 en uso
Memoria insuficiente durante la cuantización
Recomendaciones de GPU en Clore.ai
GPU
VRAM
Precio en Clore.ai
Uso recomendado
Rendimiento (Mistral 7B Q4)
Recursos
Última actualización
¿Te fue útil?