Serveur Llama.cpp
Inférence LLM efficace avec le serveur llama.cpp sur les GPU Clore.ai
Exigences du serveur
Paramètre
Minimum
Recommandé
Location sur CLORE.AI
Accédez à votre serveur
Qu'est-ce que Llama.cpp ?
Niveaux de quantification
Format
Taille (7B)
Vitesse
Qualité
Déploiement rapide
Accéder à votre service
Vérifiez que cela fonctionne
Référence complète de l'API
Points de terminaison standard
Point de terminaison
Méthode
Description
Tokenizer du texte
Propriétés du serveur
Construire depuis la source
Télécharger des modèles
Options du serveur
Serveur basique
Déchargement GPU complet
Toutes les options
Utilisation de l'API
Chat Completions (compatible OpenAI)
Streaming
Complétion de texte
Embeddings
Exemples cURL
Chat
Complétion
Vérification de l'état de santé
Métriques
Multi-GPU
Optimisation de la mémoire
Pour VRAM limitée
Pour une vitesse maximale
Modèles de template spécifiques
Llama 2 Chat
Mistral Instruct
ChatML (Plusieurs modèles)
Wrapper serveur Python
Benchmarking
Comparaison des performances
Modèle
GPU
Quantification
Tokens/sec
Dépannage
CUDA non détecté
Mémoire insuffisante
Génération lente
Configuration de production
Service systemd
Avec nginx
Estimation des coûts
GPU
Tarif horaire
Tarif journalier
Session de 4 heures
Prochaines étapes
Mis à jour
Ce contenu vous a-t-il été utile ?