TGI (Text Generation Inference)
Exécuter HuggingFace Text Generation Inference (TGI) pour le déploiement en production de LLM sur les GPU Clore.ai
Exigences serveur
Paramètre
Minimum
Recommandé
Déploiement rapide sur CLORE.AI
Variable
Exemple
Description
Configuration étape par étape
1. Louez un serveur GPU sur CLORE.AI
2. Se connecter via SSH
3. Récupérer l'image Docker TGI
4. Lancer TGI avec un modèle
5. Vérifier que le serveur fonctionne
6. Accéder via le proxy HTTP de CLORE.AI
Exemples d’utilisation
Exemple 1 : Génération de texte basique
Exemple 2 : Complétions de chat (compatible OpenAI)
Exemple 3 : Réponse en streaming
Exemple 4 : Client Python
Exemple 5 : Requêtes par lot
Configuration
Paramètres CLI clés
Paramètre
Par défaut
Description
Utilisation d'un modèle local
Quantification AWQ (plus rapide que NF4)
Conseils de performance
1. Activer Flash Attention 2
2. Ajuster la taille maximale de lot
3. Utiliser bfloat16 sur les GPU Ampere+
4. Pré-télécharger les modèles vers un stockage persistant
5. Gestion de la mémoire GPU
6. Décodage spéculatif
Dépannage
Problème : "CUDA out of memory"
Problème : le téléchargement du modèle est lent
Problème : serveur inaccessible via http_pub
Problème : "trust_remote_code est requis"
Problème : première réponse lente
Problème : le conteneur se ferme immédiatement
Liens
Recommandations GPU Clore.ai
Cas d’utilisation
GPU recommandé
Coût estimé sur Clore.ai
Mis à jour
Ce contenu vous a-t-il été utile ?