Mistral.rs
Qu'est-ce que Mistral.rs ?
Fonctionnalités clés
Familles de modèles prises en charge
Famille
Format
Moteur
Démarrage rapide sur Clore.ai
Étape 1 : Trouver un serveur GPU
Étape 2 : Déployer Mistral.rs Docker
Port du conteneur
Usage
Étape 3 : Connecter et vérifier
Exécution du serveur
Démarrage rapide avec un modèle GGUF
Servir Mistral 7B (SafeTensors)
Servir avec quantification In-Situ (ISQ)
Modèle Vision-Langage
Décodage spéculatif
Utilisation de l'API
Endpoints compatibles OpenAI
Point de terminaison
Méthode
Description
Exemple Python
Réponse en streaming
Entrée vision/image
Exemples cURL
Options de configuration
Flags du serveur
Référence de quantification ISQ
Option ISQ
Bits
Qualité
VRAM (7B)
Fonctionnalités avancées
X-LoRA (Mélange d'adaptateurs LoRA)
Re-quantifier à l'exécution
Journalisation des requêtes
Optimisation des performances
Optimiser pour le débit
Optimiser pour une faible latence
Surveiller les performances
Docker Compose
Compilation depuis les sources
Dépannage
Bibliothèque CUDA introuvable
Échec du téléchargement du modèle
Port 8080 utilisé
Mémoire insuffisante pendant la quantification
Recommandations GPU Clore.ai
GPU
VRAM
Prix Clore.ai
Utilisation recommandée
Débit (Mistral 7B Q4)
Ressources
Mis à jour
Ce contenu vous a-t-il été utile ?