MLC-LLM
Qu'est-ce que MLC-LLM ?
Capacités clés
Pourquoi utiliser MLC-LLM sur Clore.ai ?
Démarrage rapide sur Clore.ai
Étape 1 : Trouver un serveur GPU
Étape 2 : Déployer MLC-LLM
Port du conteneur
Usage
Étape 3 : Se connecter via SSH
Installation et configuration
Option A : Utiliser des modèles pré-compilés (le plus rapide)
Option B : Compiler votre propre modèle
Exécution du serveur API
Démarrer le serveur compatible OpenAI
Sortie du démarrage du serveur
Points de terminaison API disponibles
Point de terminaison
Méthode
Description
Exemples d'utilisation de l'API
Complétions de chat (Python)
Réponse en streaming
Exemple cURL
Modèles pré-compilés disponibles
Série Llama 3
Mistral / Mixtral
Gemma
Phi
Options de quantification
Quantification
Bits
Qualité
VRAM (7B)
VRAM (13B)
Déploiement Multi-GPU
Interface Web de chat
Optimisation des performances
Optimiser la taille de lot
Surveiller l'utilisation GPU
Mesurer le débit
Configuration Docker Compose
Dépannage
Échec du téléchargement du modèle
Mémoire insuffisante (OOM)
Incompatibilité de version CUDA
Serveur inaccessible
Recommandations GPU Clore.ai
GPU
VRAM
Prix Clore.ai
Idéal pour
Débit (Llama 3 8B Q4)
Ressources
Mis à jour
Ce contenu vous a-t-il été utile ?