Llama.cpp-Server

Effiziente LLM-Inferenz mit dem llama.cpp-Server auf Clore.ai GPUs

Führen Sie LLMs effizient mit dem llama.cpp-Server auf GPU aus.

circle-check

Serveranforderungen

Parameter
Minimum
Empfohlen

RAM

8GB

16GB+

VRAM

6GB

8GB+

Netzwerk

200Mbps

500Mbps+

Startzeit

~2-5 Minuten

-

circle-info

Llama.cpp ist speichereffizient dank GGUF-Quantisierung. 7B-Modelle können auf 6-8 GB VRAM laufen.

Mieten auf CLORE.AI

  1. Nach GPU-Typ, VRAM und Preis filtern

  2. Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)

  3. Konfigurieren Sie Ihre Bestellung:

    • Docker-Image auswählen

    • Ports festlegen (TCP für SSH, HTTP für Web-UIs)

    • Umgebungsvariablen bei Bedarf hinzufügen

    • Startbefehl eingeben

  4. Zahlung auswählen: CLORE, BTC, oder USDT/USDC

  5. Bestellung erstellen und auf Bereitstellung warten

Zugriff auf Ihren Server

  • Verbindungsdetails finden Sie in Meine Bestellungen

  • Webschnittstellen: Verwenden Sie die HTTP-Port-URL

  • SSH: ssh -p <port> root@<proxy-address>

Was ist Llama.cpp?

Llama.cpp ist die schnellste CPU-/GPU-Inferenz-Engine für LLMs:

  • Unterstützt GGUF-quantisierte Modelle

  • Geringer Speicherverbrauch

  • OpenAI-kompatible API

  • Mehrbenutzerunterstützung

Quantisierungsstufen

Format
Größe (7B)
Geschwindigkeit
Qualität

Q2_K

2,8 GB

Am schnellsten

Gering

Q4_K_M

4,1 GB

Schnell

Gut

Q5_K_M

4,8 GB

Mittel

Großartig

Q6_K

5,5 GB

Langsamer

Ausgezeichnet

Q8_0

7,2 GB

Langsamste

Am besten

Schnelle Bereitstellung

Docker-Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Überprüfen, ob es funktioniert

circle-exclamation

Vollständige API-Referenz

Standardendpunkte

Endpunkt
Methode
Beschreibung

/health

GET

Health-Check

/v1/models

GET

Modelle auflisten

/v1/chat/completions

POST

Chat (OpenAI-kompatibel)

/v1/completions

POST

Textvervollständigung (OpenAI-kompatibel)

/v1/embeddings

POST

Embeddings erzeugen

/completion

POST

Native Completion-Endpunkt

/tokenize

POST

Text tokenisieren

/detokenize

POST

Tokens detokenisieren

/props

GET

Servereigenschaften

/metrics

GET

Prometheus-Metriken

Text tokenisieren

Antwort:

Servereigenschaften

Antwort:

Aus Quellen bauen

Modelle herunterladen

Serveroptionen

Basiser Server

Vollständiges GPU-Offload

Alle Optionen

API-Nutzung

Chat-Completions (OpenAI-kompatibel)

Streaming

Textvervollständigung

Embeddings

cURL-Beispiele

Chat

Completion

Health-Check

Metriken

Multi-GPU

Speicheroptimierung

Für begrenzten VRAM

Für maximale Geschwindigkeit

Modellspezifische Vorlagen

Llama 2 Chat

Mistral Instruct

ChatML (Viele Modelle)

Python-Server-Wrapper

Benchmarking

Leistungsvergleich

Modell
GPU
Quantisierung
Tokens/sec

Llama 3.1 8B

RTX 3090

Q4_K_M

~100

Llama 3.1 8B

RTX 4090

Q4_K_M

~150

Llama 3.1 8B

RTX 3090

Q4_K_M

~60

Mistral 7B

RTX 3090

Q4_K_M

~110

Mixtral 8x7B

A100

Q4_K_M

~50

Fehlerbehebung

CUDA nicht erkannt

Kein Speicher mehr

Langsame Generierung

Produktions-Setup

Systemd-Dienst

Mit nginx

Kostenabschätzung

Typische CLORE.AI-Marktplatztarife (Stand 2024):

GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)

  • Bezahlen mit CLORE Token

  • Preise bei verschiedenen Anbietern vergleichen

Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?