PowerInfer
Was ist PowerInfer?
Wesentliche Fähigkeiten
Warum PowerInfer auf Clore.ai verwenden?
Hardwareanforderungen
Modellgröße
Min. VRAM
Empfohlenes RAM
Leistung
Schnellstart auf Clore.ai
Schritt 1: Wähle deinen Server
Schritt 2: Erstelle ein benutzerdefiniertes Docker-Image
Schritt 3: Bereitstellung auf Clore.ai
PowerInfer aus dem Quellcode bauen
Build überprüfen
Modelle beschaffen
GGUF-Modelle herunterladen
Neuron-Prädiktor erzeugen (erforderlich für PowerInfer)
Inferenz ausführen
Einfache Inferenz (kein Prädiktor)
PowerInfer-Modus (mit Prädiktor)
Interaktiver Chat-Modus
Server-Modus (OpenAI-kompatible API)
Optimierung der GPU-Layer-Aufteilung
GPU-VRAM
7B-Modell
13B-Modell
34B-Modell
70B-Modell
Leistungs-Benchmarks
Durchsatzvergleich (Llama 2 70B, RTX 3090)
Engine
GPU-Layers
Tokens/Sek
Als Dienst betreiben
API-Nutzung
Fehlerbehebung
CUDA: zu wenig Speicher
Langsame CPU-Inferenz
Build schlägt fehl
Clore.ai GPU-Empfehlungen
GPU
VRAM
Clore.ai-Preis
Max. Modell (Q4)
Durchsatz (Llama 2 70B Q4)
Ressourcen
Zuletzt aktualisiert
War das hilfreich?