Mistral & Mixtral

Exécutez les modèles Mistral et Mixtral sur les GPU Clore.ai

circle-info

Des versions plus récentes disponibles ! Découvrez Mistral Small 3.1 (24B, Apache 2.0, tient sur RTX 4090) et Mistral Large 3 (675B MoE, de niveau frontier).

Exécutez les modèles Mistral et Mixtral pour une génération de texte de haute qualité.

circle-check

Location sur CLORE.AI

  1. Filtrer par type de GPU, VRAM et prix

  2. Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)

  3. Configurez votre commande :

    • Sélectionnez l'image Docker

    • Définissez les ports (TCP pour SSH, HTTP pour les interfaces web)

    • Ajoutez des variables d'environnement si nécessaire

    • Entrez la commande de démarrage

  4. Sélectionnez le paiement : CLORE, BTC, ou USDT/USDC

  5. Créez la commande et attendez le déploiement

Accédez à votre serveur

  • Trouvez les détails de connexion dans Mes commandes

  • Interfaces Web : utilisez l'URL du port HTTP

  • SSH : ssh -p <port> root@<adresse-proxy>

Aperçu du modèle

Modèle
Paramètres
VRAM
Spécialité

Mistral-7B

7B

8 Go

Usage général

Mistral-7B-Instruct

7B

8 Go

Chat/instruction

Mixtral-8x7B

46,7B (12,9B actifs)

24 Go

MoE, meilleure qualité

Mixtral-8x22B

141B

80 Go+

Plus grand MoE

Déploiement rapide

Image Docker :

Ports :

Commande :

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à la Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Options d'installation

Utilisation d'Ollama (le plus simple)

Utilisation de vLLM

Utilisation de Transformers

Mistral-7B avec Transformers

Mixtral-8x7B

Modèles quantifiés (moins de VRAM)

Quantification 4 bits

GGUF avec llama.cpp

Serveur vLLM (Production)

API compatible OpenAI

Streaming

Appel de fonction

Mistral prend en charge l'appel de fonctions :

Interface Gradio

Comparaison des performances

Débit (tokens/sec)

Modèle
RTX 3060
RTX 3090
RTX 4090
A100 40GB

Mistral-7B FP16

45

80

120

150

Mistral-7B Q4

70

110

160

200

Mixtral-8x7B FP16

-

-

30

60

Mixtral-8x7B Q4

-

25

50

80

Mixtral-8x22B Q4

-

-

-

25

Temps jusqu'au premier token (TTFT)

Modèle
RTX 3090
RTX 4090
A100

Mistral-7B

80 ms

50 ms

35 ms

Mixtral-8x7B

-

150ms

90 ms

Mixtral-8x22B

-

-

200ms

Longueur du contexte vs VRAM (Mistral-7B)

Contexte
FP16
Q8
Q4

4K

15Go

9 Go

5Go

8K

18Go

11 Go

7 Go

16K

24 Go

15Go

9 Go

32K

36 Go

22Go

14 Go

Exigences VRAM

Modèle
FP16
8 bits
4 bits

Mistral-7B

14 Go

8 Go

5Go

Mixtral-8x7B

90 Go

45 Go

24 Go

Mixtral-8x22B

180 Go

90 Go

48Go

Cas d'utilisation

Génération de code

Analyse de données

Écriture créative

Dépannage

Mémoire insuffisante

  • Utilisez la quantification 4 bits

  • Utilisez Mistral-7B au lieu de Mixtral

  • Réduire max_model_len

Génération lente

  • Utilisez vLLM pour la production

  • Activer l'attention flash

  • Utiliser le parallélisme tensoriel pour multi-GPU

Mauvaise qualité de sortie

  • Ajustez la température (0.1-0.9)

  • Utilisez la variante instruct

  • Meilleurs prompts système

Estimation des coûts

Tarifs typiques du marché CLORE.AI (à partir de 2024) :

GPU
Tarif horaire
Tarif journalier
Session de 4 heures

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Les prix varient selon le fournisseur et la demande. Vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Économisez de l'argent :

  • Utilisez Spot market pour les charges de travail flexibles (souvent 30-50 % moins cher)

  • Payer avec CLORE jetons

  • Comparer les prix entre différents fournisseurs

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?