Mistral & Mixtral
Exécutez les modèles Mistral et Mixtral sur les GPU Clore.ai
Location sur CLORE.AI
Accédez à votre serveur
Aperçu du modèle
Modèle
Paramètres
VRAM
Spécialité
Déploiement rapide
Accéder à votre service
Options d'installation
Utilisation d'Ollama (le plus simple)
Utilisation de vLLM
Utilisation de Transformers
Mistral-7B avec Transformers
Mixtral-8x7B
Modèles quantifiés (moins de VRAM)
Quantification 4 bits
GGUF avec llama.cpp
Serveur vLLM (Production)
API compatible OpenAI
Streaming
Appel de fonction
Interface Gradio
Comparaison des performances
Débit (tokens/sec)
Modèle
RTX 3060
RTX 3090
RTX 4090
A100 40GB
Temps jusqu'au premier token (TTFT)
Modèle
RTX 3090
RTX 4090
A100
Longueur du contexte vs VRAM (Mistral-7B)
Contexte
FP16
Q8
Q4
Exigences VRAM
Modèle
FP16
8 bits
4 bits
Cas d'utilisation
Génération de code
Analyse de données
Écriture créative
Dépannage
Mémoire insuffisante
Génération lente
Mauvaise qualité de sortie
Estimation des coûts
GPU
Tarif horaire
Tarif journalier
Session de 4 heures
Prochaines étapes
Mis à jour
Ce contenu vous a-t-il été utile ?