Mistral y Mixtral
Ejecuta modelos Mistral y Mixtral en GPUs de Clore.ai
Alquilar en CLORE.AI
Accede a tu servidor
Resumen del modelo
Modelo
Parámetros
VRAM
Especialidad
Despliegue rápido
Accediendo a tu servicio
Opciones de instalación
Usando Ollama (Más fácil)
Usando vLLM
Usando Transformers
Mistral-7B con Transformers
Mixtral-8x7B
Modelos cuantizados (Menor VRAM)
Cuantización a 4 bits
GGUF con llama.cpp
Servidor vLLM (Producción)
API compatible con OpenAI
Streaming
Llamada a funciones
Interfaz Gradio
Comparación de rendimiento
Rendimiento (tokens/seg)
Modelo
RTX 3060
RTX 3090
RTX 4090
A100 40GB
Tiempo hasta el primer token (TTFT)
Modelo
RTX 3090
RTX 4090
A100
Longitud de contexto vs VRAM (Mistral-7B)
Contexto
FP16
Q8
Q4
Requisitos de VRAM
Modelo
FP16
8-bit
4-bit
Casos de uso
Generación de Código
Análisis de datos
Escritura creativa
Solución de problemas
Memoria insuficiente
Generación lenta
Baja calidad de salida
Estimación de costos
GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas
Próximos pasos
Última actualización
¿Te fue útil?