PowerInfer
Qu'est-ce que PowerInfer ?
Capacités clés
Pourquoi utiliser PowerInfer sur Clore.ai ?
Exigences matérielles
Taille du modèle
VRAM min.
RAM recommandée
Performance
Démarrage rapide sur Clore.ai
Étape 1 : Choisissez votre serveur
Étape 2 : Créez une image Docker personnalisée
Étape 3 : Déployer sur Clore.ai
Compiler PowerInfer depuis les sources
Vérifier la compilation
Obtention des modèles
Télécharger des modèles GGUF
Générer le prédicteur de neurones (obligatoire pour PowerInfer)
Exécution de l'inférence
Inférence basique (sans prédicteur)
Mode PowerInfer (avec prédicteur)
Mode chat interactif
Mode serveur (API compatible OpenAI)
Optimisation de la répartition des couches GPU
VRAM GPU
Modèle 7B
Modèle 13B
Modèle 34B
Modèle 70B
Benchmarks de performance
Comparaison de débit (Llama 2 70B, RTX 3090)
Moteur
Couches GPU
Tokens/sec
Exécution en tant que service
Utilisation de l'API
Dépannage
CUDA Out of Memory
Inférence CPU lente
Échec de la compilation
Recommandations GPU Clore.ai
GPU
VRAM
Prix Clore.ai
Modèle max (Q4)
Débit (Llama 2 70B Q4)
Ressources
Mis à jour
Ce contenu vous a-t-il été utile ?