Aphrodite Engine

Aphrodite Engine für LLM-Inferenz auf alten und modernen GPUs auf Clore.ai ausführen

Aphrodite Engine ist ein optimierter LLM-Inferenzserver, aufgebaut auf vLLM und speziell auf die Community für kreatives Schreiben und Rollenspiel zugeschnitten. Er unterstützt eine breite Palette von GPUs beginnend mit Pascal (GTX-1000-Serie) und ist damit die perfekte Wahl, um Sprachmodelle auf älteren oder preisgünstigen CLORE.AI-GPU-Servern auszuführen, wo andere Frameworks versagen. Aphrodite fügt Kobold-kompatible APIs, Mirostat-Sampling und fortschrittliche Text-Sampling-Algorithmen hinzu, die in gängigen Serving-Frameworks nicht zu finden sind.

circle-check

Serveranforderungen

Parameter
Minimum
Empfohlen

RAM

16 GB

32 GB+

VRAM

6 GB

16 GB+

Festplatte

40 GB

150 GB+

GPU

NVIDIA Pascal+ (GTX 1060+)

RTX 3090, A100

circle-info

Aphrodite Engine ist einer der wenigen LLM-Server, die GPUs der Pascal-Generation (GTX-10xx-Serie) unterstützen. Das macht ihn ideal für Budget-Server auf CLORE.AI mit älteren GPUs, die niedrige Mietpreise haben.

Schnelle Bereitstellung auf CLORE.AI

Docker-Image: alpindale/aphrodite-engine:latest

Ports: 22/tcp, 2242/http

Umgebungsvariablen:

Variable
Beispiel
Beschreibung

HF_TOKEN

hf_xxx...

HuggingFace-Token für gesperrte Modelle

APHRODITE_MODEL

mistralai/Mistral-7B-Instruct-v0.3

Zu ladendes Modell

Schritt-für-Schritt-Einrichtung

1. Mieten Sie einen GPU-Server auf CLORE.AI

Aphrodites breite GPU-Unterstützung ermöglicht es Ihnen, budgetfreundliche Server auf CLORE.AI Marketplacearrow-up-right:

  • Pascal (GTX 1060–1080 Ti): 6–11 GB VRAM — kleine 3B–7B Modelle mit Quantisierung ausführen

  • Turing (RTX 2000 Serie): 8–24 GB VRAM — 7B–13B Modelle, bessere Leistung

  • Ampere (RTX 3000/A100): 24–80 GB VRAM — 30B–70B Modelle, volle Geschwindigkeit

  • Ada (RTX 4000 Serie): 16–24 GB VRAM — bestes Leistungsverhältnis pro Kosten

2. Verbindung per SSH

3. Aphrodite Engine Image ziehen

4. Aphrodite Engine starten

Einfache Startanweisung mit einem 7B-Modell:

Mit HuggingFace-Token (Llama 3):

Mit GPTQ-Quantisierung (für begrenzten VRAM):

Mit AWQ-Quantisierung:

Ein GGUF-Modell ausführen (Aphrodite unterstützt GGUF nativ):

5. Überprüfen Sie den Server

6. Zugriff über CLORE.AI HTTP-Proxy

Das CLORE.AI-Bestellpanel stellt eine http_pub URL für Port 2242 bereit. Verwenden Sie sie in Ihren Client-Anwendungen:


Beispielanwendungen

Beispiel 1: OpenAI-kompatibler Chat

Beispiel 2: Fortgeschrittenes Sampling mit Mirostat

Aphrodite unterstützt Mirostat-Sampling für kohärenteren Langtext:

Beispiel 3: Kobold-kompatible API

Aphrodite enthält einen Kobold-kompatiblen Endpunkt zur Verwendung mit KoboldAI-basierten Frontends:

Beispiel 4: Python-Client mit benutzerdefinierten Samplern

Beispiel 5: Batch-Vervollständigungen


Konfiguration

Wichtige Startparameter

Parameter
Standard
Beschreibung

--model

erforderlich

Modell-ID oder lokaler Pfad

--host

127.0.0.1

Bind-Adresse

--port

2242

Serverport

--dtype

auto

float16, bfloat16, float32

--quantization

keine

awq, gptq, squeezellm, fp8

--max-model-len

modell max

Maximale Kontextlänge überschreiben

--gpu-memory-utilization

0.90

GPU-Speicheranteil

--tensor-parallel-size

1

Anzahl der GPUs für Tensor-Parallelismus

--max-num-seqs

256

Maximale gleichzeitige Sequenzen

--trust-remote-code

false

Erlaube benutzerdefinierten Modellcode

--api-keys

keine

Komma-getrennte API-Schlüssel zur Authentifizierung

--served-model-name

Modellname

Benutzerdefinierter Name für API-Antworten

API-Schlüssel-Authentifizierung hinzufügen

Verwenden Sie dann Authorization: Bearer mysecretkey1 in Anfragen.

Lokale Modelle laden


Leistungs-Tipps

1. Wählen Sie die richtige Quantisierung für Ihre GPU

GPU-VRAM
7B-Modell
13B-Modell
30B-Modell

6 GB

GPTQ/AWQ Q4

8 GB

GPTQ Q4

GPTQ Q4 (eng)

12 GB

Float16

GPTQ Q4

16 GB

Float16

Float16

GPTQ Q4

24 GB

Float16

Float16

GPTQ Q4

48 GB

Float16

Float16

Float16

2. GPU-Speichernutzung optimieren

Beginnen Sie niedriger und erhöhen Sie, wenn Sie keine OOM-Fehler erhalten.

3. Verwenden Sie bfloat16 auf Ampere+-GPUs

Bessere numerische Stabilität als float16, gleiche Geschwindigkeit.

4. Für Rollenspiel/Kreatives Schreiben optimieren

Diese Sampler funktionieren gut für erzählerischen Text:

5. Pascal-GPU-Tipps (GTX 10xx)

Bei Pascal-GPUs vermeiden Sie Flash Attention (nicht unterstützt):


Fehlerbehebung

Problem: "CUDA capability sm_6x not supported"

Pascal-GPUs erfordern spezielle Behandlung. Verwenden Sie:

Falls weiterhin Fehler auftreten, prüfen Sie, ob die Image-Version Pascal unterstützt:

Problem: "out of memory" auf kleinen GPUs

Problem: Langsame Token-Generierung

  • Prüfen Sie, ob die GPU tatsächlich verwendet wird: nvidia-smi innerhalb des Containers

  • Ermöglichen Sie größere Batch-Größen: --max-num-seqs 64

  • Verwenden Sie AWQ statt GPTQ (schnellere Inferenz)

Problem: Modell nicht gefunden / 404-Fehler

Prüfen Sie stets, ob Ihr Modellname genau übereinstimmt:

Verwenden Sie den exakten Modellnamen aus der Antwort in Ihren Anfragen.

Problem: Wiederholte Ausgaben

Fügen Sie eine Wiederholungsstrafe hinzu:

Problem: Docker-Container beendet sich stillschweigend



Clore.ai GPU-Empfehlungen

Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai

Entwicklung/Tests

RTX 3090 (24GB)

~$0.12/gpu/hr

Produktion (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Große Modelle (70B+)

A100 80GB / H100

~$1.20/gpu/hr

💡 Alle Beispiele in diesem Leitfaden können bereitgestellt werden auf Clore.aiarrow-up-right GPU-Servern. Durchsuchen Sie verfügbare GPUs und mieten Sie stundenweise — keine Verpflichtungen, voller Root-Zugriff.

Zuletzt aktualisiert

War das hilfreich?