Aphrodite Engine

Exécuter Aphrodite Engine pour l'inférence LLM sur GPU anciens et modernes sur Clore.ai

Aphrodite Engine est un serveur d'inférence LLM optimisé construit sur vLLM, spécialement adapté à la communauté de l'écriture créative et du jeu de rôle. Il prend en charge un large éventail de GPU à partir de Pascal (série GTX 1000), ce qui en fait le choix parfait pour exécuter des modèles de langage sur des serveurs GPU CLORE.AI anciens ou économiques où d'autres frameworks échouent. Aphrodite ajoute des API compatibles Kobold, l'échantillonnage Mirostat et des algorithmes d'échantillonnage de texte avancés non présents dans les frameworks de service grand public.

circle-check

Exigences serveur

Paramètre
Minimum
Recommandé

RAM

16 Go

32 Go+

VRAM

6 Go

16 Go+

Disque

40 Go

150 Go+

GPU

NVIDIA Pascal+ (GTX 1060+)

RTX 3090, A100

circle-info

Aphrodite Engine est l'un des rares serveurs LLM à prendre en charge les GPU de génération Pascal (série GTX 10xx). Cela le rend idéal pour les serveurs économiques sur CLORE.AI avec des GPU plus anciens dont les tarifs de location sont bas.

Déploiement rapide sur CLORE.AI

Image Docker : alpindale/aphrodite-engine:latest

Ports : 22/tcp, 2242/http

Variables d’environnement :

Variable
Exemple
Description

HF_TOKEN

hf_xxx...

Jeton HuggingFace pour les modèles protégés

APHRODITE_MODEL

mistralai/Mistral-7B-Instruct-v0.3

Modèle à charger

Configuration étape par étape

1. Louez un serveur GPU sur CLORE.AI

La large compatibilité GPU d'Aphrodite vous permet de trouver des serveurs économiques sur CLORE.AI Marketplacearrow-up-right:

  • Pascal (GTX 1060–1080 Ti): 6–11 Go de VRAM — exécutez de petits modèles 3B–7B avec quantification

  • Turing (série RTX 2000): 8–24 Go de VRAM — modèles 7B–13B, meilleures performances

  • Ampere (RTX 3000/A100): 24–80 Go de VRAM — modèles 30B–70B, pleine vitesse

  • Ada (série RTX 4000): 16–24 Go de VRAM — meilleur rapport performance/coût

2. Se connecter via SSH

3. Récupérer l'image Aphrodite Engine

4. Lancer Aphrodite Engine

Lancement basique avec un modèle 7B :

Avec un token HuggingFace (Llama 3) :

Avec quantification GPTQ (pour VRAM limitée) :

Avec quantification AWQ :

Exécution d'un modèle GGUF (Aphrodite prend en charge GGUF nativement) :

5. Vérifiez le serveur

6. Accès via le proxy HTTP de CLORE.AI

Le panneau de commande de commande CLORE.AI fournit une http_pub URL pour le port 2242. Utilisez-la dans vos applications clientes :


Exemples d’utilisation

Exemple 1 : Chat compatible OpenAI

Exemple 2 : Échantillonnage avancé avec Mirostat

Aphrodite prend en charge l'échantillonnage Mirostat pour des textes longs plus cohérents :

Exemple 3 : API compatible Kobold

Aphrodite inclut un endpoint compatible Kobold pour une utilisation avec des frontends basés sur KoboldAI :

Exemple 4 : Client Python avec échantillonneurs personnalisés

Exemple 5 : Complétions par lots


Configuration

Principaux paramètres de lancement

Paramètre
Par défaut
Description

--model

requis

ID du modèle ou chemin local

--host

127.0.0.1

Adresse de liaison

--port

2242

Port du serveur

--dtype

auto

float16, bfloat16, float32

--quantization

aucune

awq, gptq, squeezellm, fp8

--max-model-len

max du modèle

Remplacer la longueur maximale du contexte

--gpu-memory-utilization

0.90

Fraction de mémoire GPU

--tensor-parallel-size

1

Nombre de GPU pour le parallélisme tensoriel

--max-num-seqs

256

Nombre maximal de séquences simultanées

--trust-remote-code

false

Autoriser le code personnalisé du modèle

--api-keys

aucune

Clés API séparées par des virgules pour l'authentification

--served-model-name

nom du modèle

Nom personnalisé pour les réponses de l'API

Ajout de l'authentification par clé API

Puis utilisez Authorization: Bearer mysecretkey1 dans les requêtes.

Chargement de modèles locaux


Conseils de performance

1. Choisissez la bonne quantification pour votre GPU

VRAM GPU
Modèle 7B
Modèle 13B
Modèle 30B

6 Go

GPTQ/AWQ Q4

8 Go

GPTQ Q4

GPTQ Q4 (serré)

12 Go

Float16

GPTQ Q4

16 Go

Float16

Float16

GPTQ Q4

24 Go

Float16

Float16

GPTQ Q4

48 GB

Float16

Float16

Float16

2. Ajustez l'utilisation de la mémoire GPU

Commencez plus bas et augmentez si vous n'obtenez pas d'erreurs OOM.

3. Utiliser bfloat16 sur les GPU Ampere+

Meilleure stabilité numérique que le float16, même vitesse.

4. Optimiser pour le jeu de rôle / l'écriture créative

Ces échantillonneurs fonctionnent bien pour le texte narratif :

5. Conseils pour GPU Pascal (GTX 10xx)

Pour les GPU Pascal, évitez Flash Attention (non pris en charge) :


Dépannage

Problème : "capacité CUDA sm_6x non prise en charge"

Les GPU Pascal nécessitent un traitement spécial. Utilisez :

Si cela échoue toujours, vérifiez si la version de l'image prend en charge Pascal :

Problème : "mémoire insuffisante" sur les petits GPU

Problème : génération de tokens lente

  • Vérifiez que le GPU est réellement utilisé : nvidia-smi à l'intérieur du conteneur

  • Activez des tailles de lots plus grandes : --max-num-seqs 64

  • Utilisez AWQ au lieu de GPTQ (inférence plus rapide)

Problème : modèle introuvable / erreurs 404

Vérifiez toujours que le nom de votre modèle correspond exactement :

Utilisez le nom exact du modèle à partir de la réponse dans vos requêtes.

Problème : sortie répétitive

Ajoutez une pénalité de répétition :

Problème : le conteneur Docker se termine silencieusement


Liens


Recommandations GPU Clore.ai

Cas d’utilisation
GPU recommandé
Coût estimé sur Clore.ai

Développement/Test

RTX 3090 (24GB)

~$0.12/gpu/hr

Production (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Grands modèles (70B+)

A100 80GB / H100

~$1.20/gpu/hr

💡 Tous les exemples de ce guide peuvent être déployés sur Clore.aiarrow-up-right serveurs GPU. Parcourez les GPU disponibles et louez à l’heure — sans engagement, avec accès root complet.

Mis à jour

Ce contenu vous a-t-il été utile ?