Llama.cpp-Server
Effiziente LLM-Inferenz mit dem llama.cpp-Server auf Clore.ai GPUs
Serveranforderungen
Parameter
Minimum
Empfohlen
Mieten auf CLORE.AI
Zugriff auf Ihren Server
Was ist Llama.cpp?
Quantisierungsstufen
Format
Größe (7B)
Geschwindigkeit
Qualität
Schnelle Bereitstellung
Zugriff auf Ihren Dienst
Überprüfen, ob es funktioniert
Vollständige API-Referenz
Standardendpunkte
Endpunkt
Methode
Beschreibung
Text tokenisieren
Servereigenschaften
Aus Quellen bauen
Modelle herunterladen
Serveroptionen
Basiser Server
Vollständiges GPU-Offload
Alle Optionen
API-Nutzung
Chat-Completions (OpenAI-kompatibel)
Streaming
Textvervollständigung
Embeddings
cURL-Beispiele
Chat
Completion
Health-Check
Metriken
Multi-GPU
Speicheroptimierung
Für begrenzten VRAM
Für maximale Geschwindigkeit
Modellspezifische Vorlagen
Llama 2 Chat
Mistral Instruct
ChatML (Viele Modelle)
Python-Server-Wrapper
Benchmarking
Leistungsvergleich
Modell
GPU
Quantisierung
Tokens/sec
Fehlerbehebung
CUDA nicht erkannt
Kein Speicher mehr
Langsame Generierung
Produktions-Setup
Systemd-Dienst
Mit nginx
Kostenabschätzung
GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung
Nächste Schritte
Zuletzt aktualisiert
War das hilfreich?