Mistral y Mixtral

Ejecuta modelos Mistral y Mixtral en GPUs de Clore.ai

circle-info

¡Hay versiones más nuevas disponibles! Echa un vistazo Mistral Small 3.1 (24B, Apache 2.0, cabe en RTX 4090) y Mistral Large 3 (675B MoE, de clase frontera).

Ejecuta modelos Mistral y Mixtral para generación de texto de alta calidad.

circle-check

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

Resumen del modelo

Modelo
Parámetros
VRAM
Especialidad

Mistral-7B

7B

8GB

Propósito general

Mistral-7B-Instruct

7B

8GB

Chat/instrucción

Mixtral-8x7B

46.7B (12.9B activos)

24GB

MoE, mejor calidad

Mixtral-8x22B

141B

80GB+

Mayor MoE

Despliegue rápido

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Opciones de instalación

Usando Ollama (Más fácil)

Usando vLLM

Usando Transformers

Mistral-7B con Transformers

Mixtral-8x7B

Modelos cuantizados (Menor VRAM)

Cuantización a 4 bits

GGUF con llama.cpp

Servidor vLLM (Producción)

API compatible con OpenAI

Streaming

Llamada a funciones

Mistral admite llamadas a funciones:

Interfaz Gradio

Comparación de rendimiento

Rendimiento (tokens/seg)

Modelo
RTX 3060
RTX 3090
RTX 4090
A100 40GB

Mistral-7B FP16

45

80

120

150

Mistral-7B Q4

70

110

160

200

Mixtral-8x7B FP16

-

-

30

60

Mixtral-8x7B Q4

-

25

50

80

Mixtral-8x22B Q4

-

-

-

25

Tiempo hasta el primer token (TTFT)

Modelo
RTX 3090
RTX 4090
A100

Mistral-7B

80ms

50ms

35ms

Mixtral-8x7B

-

150ms

90ms

Mixtral-8x22B

-

-

200ms

Longitud de contexto vs VRAM (Mistral-7B)

Contexto
FP16
Q8
Q4

4K

15GB

9GB

5GB

8K

18GB

11GB

7GB

16K

24GB

15GB

9GB

32K

36GB

22GB

14GB

Requisitos de VRAM

Modelo
FP16
8-bit
4-bit

Mistral-7B

14GB

8GB

5GB

Mixtral-8x7B

90GB

45GB

24GB

Mixtral-8x22B

180GB

90GB

48GB

Casos de uso

Generación de Código

Análisis de datos

Escritura creativa

Solución de problemas

Memoria insuficiente

  • Usar cuantización de 4 bits

  • Usar Mistral-7B en lugar de Mixtral

  • Reducir max_model_len

Generación lenta

  • Usar vLLM para producción

  • Habilitar atención flash

  • Usar paralelismo de tensores para múltiples GPU

Baja calidad de salida

  • Ajustar temperatura (0.1-0.9)

  • Usar la variante instruct

  • Mejores prompts del sistema

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Próximos pasos

Última actualización

¿Te fue útil?