ExLlamaV2
Inférence LLM à vitesse maximale avec ExLlamaV2 sur les GPU Clore.ai
Location sur CLORE.AI
Accédez à votre serveur
Qu'est-ce qu'ExLlamaV2 ?
Exigences
Taille du modèle
VRAM min
Recommandé
Déploiement rapide
Accéder à votre service
Installation
Télécharger des modèles
Modèles quantifiés EXL2
Bits par poids (bpw)
BPW
Qualité
VRAM (7B)
API Python
Génération basique
Génération en streaming
Format de chat
Mode Serveur
Démarrer le serveur
Utilisation de l'API
Complétions de chat
TabbyAPI (Serveur recommandé)
Fonctionnalités de TabbyAPI
Décodage spéculatif
Quantifiez vos propres modèles
Convertir en EXL2
Ligne de commande
Gestion de la mémoire
Allocation du cache
Multi-GPU
Comparaison des performances
Modèle
Moteur
GPU
Tokens/sec
Paramètres avancés
Paramètres d'échantillonnage
Génération par lot
Dépannage
CUDA Out of Memory
Chargement lent
Modèle introuvable
Intégration avec LangChain
Estimation des coûts
GPU
Tarif horaire
Tarif journalier
Session de 4 heures
Prochaines étapes
Mis à jour
Ce contenu vous a-t-il été utile ?