ExLlamaV2
Maximale Geschwindigkeits-LLM-Inferenz mit ExLlamaV2 auf Clore.ai GPUs
Mieten auf CLORE.AI
Zugriff auf Ihren Server
Was ist ExLlamaV2?
Anforderungen
Modellgröße
Min. VRAM
Empfohlen
Schnelle Bereitstellung
Zugriff auf Ihren Dienst
Installation
Modelle herunterladen
EXL2 quantisierte Modelle
Bits pro Gewicht (bpw)
BPW
Qualität
VRAM (7B)
Python-API
Grundlegende Generierung
Streaming-Generierung
Chat-Format
Server-Modus
Server starten
API-Nutzung
Chat-Vervollständigungen
TabbyAPI (empfohlener Server)
TabbyAPI-Funktionen
Spekulatives Decoding
Quantisiere deine eigenen Modelle
In EXL2 konvertieren
Kommandozeile
Speicherverwaltung
Cache-Zuweisung
Multi-GPU
Leistungsvergleich
Modell
Engine
GPU
Tokens/sec
Erweiterte Einstellungen
Sampling-Parameter
Batch-Erzeugung
Fehlerbehebung
CUDA: Kein Speicher
Langsames Laden
Modell nicht gefunden
Integration mit LangChain
Kostenabschätzung
GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung
Nächste Schritte
Zuletzt aktualisiert
War das hilfreich?