Serveur Llama.cpp

Inférence LLM efficace avec le serveur llama.cpp sur les GPU Clore.ai

Exécutez des LLM efficacement avec le serveur llama.cpp sur GPU.

circle-check

Exigences du serveur

Paramètre
Minimum
Recommandé

RAM

8 Go

16 Go+

VRAM

6 Go

8 Go+

Réseau

200 Mbps

500 Mbps+

Temps de démarrage

~2-5 minutes

-

circle-info

Llama.cpp est économe en mémoire grâce à la quantification GGUF. Les modèles 7B peuvent fonctionner avec 6-8 Go de VRAM.

Location sur CLORE.AI

  1. Filtrer par type de GPU, VRAM et prix

  2. Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)

  3. Configurez votre commande :

    • Sélectionnez l'image Docker

    • Définissez les ports (TCP pour SSH, HTTP pour les interfaces web)

    • Ajoutez des variables d'environnement si nécessaire

    • Entrez la commande de démarrage

  4. Sélectionnez le paiement : CLORE, BTC, ou USDT/USDC

  5. Créez la commande et attendez le déploiement

Accédez à votre serveur

  • Trouvez les détails de connexion dans Mes commandes

  • Interfaces Web : utilisez l'URL du port HTTP

  • SSH : ssh -p <port> root@<adresse-proxy>

Qu'est-ce que Llama.cpp ?

Llama.cpp est le moteur d'inférence CPU/GPU le plus rapide pour les LLM :

  • Prend en charge les modèles quantifiés GGUF

  • Faible utilisation de la mémoire

  • API compatible OpenAI

  • Prise en charge multi-utilisateurs

Niveaux de quantification

Format
Taille (7B)
Vitesse
Qualité

Q2_K

2,8 Go

Le plus rapide

Faible

Q4_K_M

4,1 Go

Rapide

Bon

Q5_K_M

4,8 Go

Moyen

Excellent

Q6_K

5,5 Go

Plus lent

Excellent

Q8_0

7,2 Go

Le plus lent

Meilleur

Déploiement rapide

Image Docker :

Ports :

Commande :

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à la Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Vérifiez que cela fonctionne

circle-exclamation

Référence complète de l'API

Points de terminaison standard

Point de terminaison
Méthode
Description

/health

GET

Vérification de l'état

/v1/models

GET

Lister les modèles

/v1/chat/completions

POST

Chat (compatible OpenAI)

/v1/completions

POST

Complétion de texte (compatible OpenAI)

/v1/embeddings

POST

Générer des embeddings

/completion

POST

Point de terminaison de complétion natif

/tokenize

POST

Tokenizer le texte

/detokenize

POST

Détokenizer les tokens

/props

GET

Propriétés du serveur

/metrics

GET

Métriques Prometheus

Tokenizer du texte

Réponse :

Propriétés du serveur

Réponse :

Construire depuis la source

Télécharger des modèles

Options du serveur

Serveur basique

Déchargement GPU complet

Toutes les options

Utilisation de l'API

Chat Completions (compatible OpenAI)

Streaming

Complétion de texte

Embeddings

Exemples cURL

Chat

Complétion

Vérification de l'état de santé

Métriques

Multi-GPU

Optimisation de la mémoire

Pour VRAM limitée

Pour une vitesse maximale

Modèles de template spécifiques

Llama 2 Chat

Mistral Instruct

ChatML (Plusieurs modèles)

Wrapper serveur Python

Benchmarking

Comparaison des performances

Modèle
GPU
Quantification
Tokens/sec

Llama 3.1 8B

RTX 3090

Q4_K_M

~100

Llama 3.1 8B

RTX 4090

Q4_K_M

~150

Llama 3.1 8B

RTX 3090

Q4_K_M

~60

Mistral 7B

RTX 3090

Q4_K_M

~110

Mixtral 8x7B

A100

Q4_K_M

~50

Dépannage

CUDA non détecté

Mémoire insuffisante

Génération lente

Configuration de production

Service systemd

Avec nginx

Estimation des coûts

Tarifs typiques du marché CLORE.AI (à partir de 2024) :

GPU
Tarif horaire
Tarif journalier
Session de 4 heures

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Les prix varient selon le fournisseur et la demande. Vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Économisez de l'argent :

  • Utilisez Spot market pour les charges de travail flexibles (souvent 30-50 % moins cher)

  • Payer avec CLORE jetons

  • Comparer les prix entre différents fournisseurs

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?