ExLlamaV2

Maximale Geschwindigkeits-LLM-Inferenz mit ExLlamaV2 auf Clore.ai GPUs

Führen Sie LLMs mit ExLlamaV2 mit maximaler Geschwindigkeit aus.

circle-check

Mieten auf CLORE.AI

  1. Nach GPU-Typ, VRAM und Preis filtern

  2. Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)

  3. Konfigurieren Sie Ihre Bestellung:

    • Docker-Image auswählen

    • Ports festlegen (TCP für SSH, HTTP für Web-UIs)

    • Umgebungsvariablen bei Bedarf hinzufügen

    • Startbefehl eingeben

  4. Zahlung auswählen: CLORE, BTC, oder USDT/USDC

  5. Bestellung erstellen und auf Bereitstellung warten

Zugriff auf Ihren Server

  • Verbindungsdetails finden Sie in Meine Bestellungen

  • Webschnittstellen: Verwenden Sie die HTTP-Port-URL

  • SSH: ssh -p <port> root@<proxy-address>

Was ist ExLlamaV2?

ExLlamaV2 ist die schnellste Inferenz-Engine für große Sprachmodelle:

  • 2–3x schneller als andere Engines

  • Ausgezeichnete Quantisierung (EXL2)

  • Geringer VRAM-Verbrauch

  • Unterstützt spekulatives Decoding

Anforderungen

Modellgröße
Min. VRAM
Empfohlen

7B

6GB

RTX 3060

13B

10GB

RTX 3090

34B

20GB

RTX 4090

70B

40GB

A100

Schnelle Bereitstellung

Docker-Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Installation

Modelle herunterladen

EXL2 quantisierte Modelle

Bits pro Gewicht (bpw)

BPW
Qualität
VRAM (7B)

2.0

Gering

~3GB

3.0

Gut

~4GB

4.0

Großartig

~5GB

5.0

Ausgezeichnet

~6GB

6.0

Nahezu FP16

~7GB

Python-API

Grundlegende Generierung

Streaming-Generierung

Chat-Format

Server-Modus

Server starten

API-Nutzung

Chat-Vervollständigungen

TabbyAPI (empfohlener Server)

TabbyAPI bietet einen funktionsreichen ExLlamaV2-Server:

TabbyAPI-Funktionen

  • OpenAI-kompatible API

  • Unterstützung mehrerer Modelle

  • LoRA Hot-Swapping

  • Streaming

  • Funktionsaufrufe

  • Admin-API

Spekulatives Decoding

Verwende ein kleineres Modell, um die Generierung zu beschleunigen:

Quantisiere deine eigenen Modelle

In EXL2 konvertieren

Kommandozeile

Speicherverwaltung

Cache-Zuweisung

Multi-GPU

Leistungsvergleich

Modell
Engine
GPU
Tokens/sec

Llama 3.1 8B

ExLlamaV2

RTX 3090

~150

Llama 3.1 8B

llama.cpp

RTX 3090

~100

Llama 3.1 8B

vLLM

RTX 3090

~120

Llama 3.1 8B

ExLlamaV2

RTX 3090

~90

Mixtral 8x7B

ExLlamaV2

A100

~70

Erweiterte Einstellungen

Sampling-Parameter

Batch-Erzeugung

Fehlerbehebung

CUDA: Kein Speicher

Langsames Laden

Modell nicht gefunden

Integration mit LangChain

Kostenabschätzung

Typische CLORE.AI-Marktplatztarife (Stand 2024):

GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)

  • Bezahlen mit CLORE Token

  • Preise bei verschiedenen Anbietern vergleichen

Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?