ExLlamaV2

Inférence LLM à vitesse maximale avec ExLlamaV2 sur les GPU Clore.ai

Exécutez les LLMs à pleine vitesse avec ExLlamaV2.

circle-check

Location sur CLORE.AI

  1. Filtrer par type de GPU, VRAM et prix

  2. Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)

  3. Configurez votre commande :

    • Sélectionnez l'image Docker

    • Définissez les ports (TCP pour SSH, HTTP pour les interfaces web)

    • Ajoutez des variables d'environnement si nécessaire

    • Entrez la commande de démarrage

  4. Sélectionnez le paiement : CLORE, BTC, ou USDT/USDC

  5. Créez la commande et attendez le déploiement

Accédez à votre serveur

  • Trouvez les détails de connexion dans Mes commandes

  • Interfaces Web : utilisez l'URL du port HTTP

  • SSH : ssh -p <port> root@<adresse-proxy>

Qu'est-ce qu'ExLlamaV2 ?

ExLlamaV2 est le moteur d'inférence le plus rapide pour les grands modèles de langage :

  • 2 à 3 fois plus rapide que les autres moteurs

  • Excellente quantification (EXL2)

  • Faible utilisation de VRAM

  • Prend en charge le décodage spéculatif

Exigences

Taille du modèle
VRAM min
Recommandé

7B

6 Go

RTX 3060

13B

10Go

RTX 3090

34B

20Go

RTX 4090

70B

40Go

A100

Déploiement rapide

Image Docker :

Ports :

Commande :

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à la Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Installation

Télécharger des modèles

Modèles quantifiés EXL2

Bits par poids (bpw)

BPW
Qualité
VRAM (7B)

2.0

Faible

~3 Go

3.0

Bon

~4 Go

4.0

Excellent

~5 Go

5.0

Excellent

~6 Go

6.0

Proche du FP16

~7 Go

API Python

Génération basique

Génération en streaming

Format de chat

Mode Serveur

Démarrer le serveur

Utilisation de l'API

Complétions de chat

TabbyAPI (Serveur recommandé)

TabbyAPI fournit un serveur ExLlamaV2 riche en fonctionnalités :

Fonctionnalités de TabbyAPI

  • API compatible OpenAI

  • Prise en charge de plusieurs modèles

  • Hot-swapping LoRA

  • Streaming

  • Appel de fonctions

  • API d'administration

Décodage spéculatif

Utilisez un modèle plus petit pour accélérer la génération :

Quantifiez vos propres modèles

Convertir en EXL2

Ligne de commande

Gestion de la mémoire

Allocation du cache

Multi-GPU

Comparaison des performances

Modèle
Moteur
GPU
Tokens/sec

Llama 3.1 8B

ExLlamaV2

RTX 3090

~150

Llama 3.1 8B

llama.cpp

RTX 3090

~100

Llama 3.1 8B

vLLM

RTX 3090

~120

Llama 3.1 8B

ExLlamaV2

RTX 3090

~90

Mixtral 8x7B

ExLlamaV2

A100

~70

Paramètres avancés

Paramètres d'échantillonnage

Génération par lot

Dépannage

CUDA Out of Memory

Chargement lent

Modèle introuvable

Intégration avec LangChain

Estimation des coûts

Tarifs typiques du marché CLORE.AI (à partir de 2024) :

GPU
Tarif horaire
Tarif journalier
Session de 4 heures

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Les prix varient selon le fournisseur et la demande. Vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Économisez de l'argent :

  • Utilisez Spot market pour les charges de travail flexibles (souvent 30-50 % moins cher)

  • Payer avec CLORE jetons

  • Comparer les prix entre différents fournisseurs

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?