Ollama

Führen Sie LLMs lokal mit Ollama auf Clore.ai GPUs aus

Der einfachste Weg, LLMs lokal auf CLORE.AI-GPUs auszuführen.

circle-info

Aktuelle Version: v0.6+ — Dieser Leitfaden behandelt Ollama v0.6 und neuer. Wichtige neue Funktionen umfassen strukturierte Ausgaben (JSON-Schema-Erzwingung), OpenAI-kompatiblen Embeddings-Endpunkt (/api/embed), und gleichzeitiges Laden von Modellen (mehrere Modelle gleichzeitig ausführen, ohne zu tauschen). Siehe Neu in v0.6+ für Details.

circle-check

Serveranforderungen

Parameter
Minimum
Empfohlen

RAM

8GB

16GB+

VRAM

6GB

8GB+

Netzwerk

100Mbps

500Mbps+

Startzeit

~30 Sekunden

-

circle-info

Ollama ist leichtgewichtig und funktioniert auf den meisten GPU-Servern. Für größere Modelle (13B+) wählen Sie Server mit 16GB+ RAM und 12GB+ VRAM.

Warum Ollama?

  • Ein-Kommando-Setup - Kein Python, keine Abhängigkeiten

  • Modellbibliothek - Modelle herunterladen mit ollama pull

  • OpenAI-kompatible API - Drop-in-Ersatz

  • GPU-Beschleunigung - Automatische CUDA-Erkennung

  • Multi-Modell - Mehrere Modelle gleichzeitig ausführen (v0.6+)

Schnelle Bereitstellung auf CLORE.AI

Docker-Image:

Ports:

Befehl:

Überprüfen, ob es funktioniert

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen und testen:

circle-exclamation

Zugriff auf Ihren Dienst

Bei Bereitstellung auf CLORE.AI greifen Sie über das http_pub URL:

circle-info

Alle localhost:11434 Die untenstehenden Beispiele funktionieren, wenn über SSH verbunden. Für externen Zugriff ersetzen Sie durch Ihre https://your-http-pub.clorecloud.net/ URL.

Installation

Verwendung von Docker (empfohlen)

Manuelle Installation

Dieser einzelne Befehl installiert die neueste Version von Ollama, richtet den systemd-Dienst ein und konfiguriert die GPU-Erkennung automatisch. Funktioniert auf Ubuntu, Debian, Fedora und den meisten modernen Linux-Distributionen.

Modelle ausführen

Herunterladen und Ausführen

Beliebte Modelle

Modell
Größe
Einsatzgebiet

llama3.2

3B

Schnell, für allgemeine Zwecke

llama3.1

8B

Bessere Qualität

llama3.1:70b

70B

Beste Qualität

mistral

7B

Schnell, gute Qualität

mixtral

47B

MoE, hohe Qualität

codellama

7-34B

Code-Generierung

deepseek-coder-v2

16B

Am besten für Code

deepseek-r1

7B-671B

Reasoning-Modell

deepseek-r1:32b

32B

Ausgewogenes Reasoning

qwen2.5

7B

Mehrsprachig

qwen2.5:72b

72B

Beste Qwen-Qualität

phi4

14B

Microsofts neuestes

gemma2

9B

Googles Modell

Modellvarianten

Neu in v0.6+

Ollama v0.6 führte mehrere wichtige Funktionen für Produktions-Workloads ein:

Strukturierte Ausgaben (JSON-Schema)

Erzwingen, dass Modellantworten einem bestimmten JSON-Schema entsprechen. Nützlich zum Erstellen von Anwendungen, die zuverlässige, parsbare Ausgaben benötigen:

Python-Beispiel mit strukturierten Ausgaben:

OpenAI-kompatibler Embeddings-Endpunkt (/api/embed)

Neu in v0.6+: der /api/embed Endpunkt ist vollständig OpenAI-kompatibel und unterstützt Batch-Eingaben:

Der OpenAI-Client funktioniert direkt mit /v1/embeddings:

Beliebte Embedding-Modelle:

Gleichzeitiges Laden von Modellen

Vor v0.6 würde Ollama ein Modell entladen, um ein anderes zu laden. V0.6+ unterstützt das gleichzeitige Ausführen mehrerer Modelle, beschränkt nur durch verfügbaren VRAM:

Konfigurieren Sie die Parallelität:

Dies ist besonders nützlich für:

  • A/B-Tests mit verschiedenen Modellen

  • Spezialisierte Modelle für verschiedene Aufgaben (Coding + Chat)

  • Häufig genutzte Modelle im VRAM warm halten

API-Nutzung

Chat Completion

circle-info

Hinzufügen "stream": false um die vollständige Antwort auf einmal zu erhalten statt gestreamt.

OpenAI-kompatibler Endpunkt

Streaming

Embeddings

Textgenerierung (Nicht-Chat)

Vollständige API-Referenz

Alle Endpunkte funktionieren sowohl mit http://localhost:11434 (über SSH) als auch https://your-http-pub.clorecloud.net (extern).

Modellverwaltung

Endpunkt
Methode
Beschreibung

/api/tags

GET

Alle heruntergeladenen Modelle auflisten

/api/show

POST

Modelldetails abrufen

/api/pull

POST

Ein Modell herunterladen

/api/delete

DELETE

Ein Modell entfernen

/api/ps

GET

Derzeit laufende Modelle auflisten

/api/version

GET

Ollama-Version abrufen

Modelle auflisten

Antwort:

Modelldetails anzeigen

Modell per API ziehen

Antwort:

circle-exclamation

Modell löschen

Laufende Modelle auflisten

Antwort:

Version abrufen

Antwort:

Inference-Endpunkte

Endpunkt
Methode
Beschreibung

/api/generate

POST

Textvervollständigung

/api/chat

POST

Chat-Vervollständigung

/api/embeddings

POST

Embeddings erzeugen (Legacy)

/api/embed

POST

Embeddings erzeugen v0.6+ (Batch, OpenAI-kompatibel)

/v1/chat/completions

POST

OpenAI-kompatibler Chat

/v1/embeddings

POST

OpenAI-kompatible Embeddings

Erstellung benutzerdefinierter Modelle

Erstellen Sie benutzerdefinierte Modelle mit spezifischen System-Prompts via API:

GPU-Konfiguration

GPU-Auslastung prüfen

Multi-GPU

Ollama verwendet automatisch verfügbare GPUs. Für eine spezifische GPU:

Speicherverwaltung

Benutzerdefinierte Modelle (Modelfile)

Erstellen Sie benutzerdefinierte Modelle mit System-Prompts:

Als Dienst ausführen

Systemd

Performance-Tipps

  1. Verwenden Sie geeignete Quantisierung

    • Q4_K_M für Geschwindigkeit

    • Q8_0 für Qualität

    • fp16 für maximale Qualität

  2. Modell an VRAM anpassen

    • 8GB: 7B-Modelle (Q4)

    • 16GB: 13B-Modelle oder 7B (Q8)

    • 24GB: 34B-Modelle (Q4)

    • 48GB+: 70B-Modelle

  3. Modell geladen halten

  4. Schnelle SSD verbessert die Leistung

    • Modellladen und KV-Cache profitieren von schnellem Speicher

    • Server mit NVMe-SSD können 2–3x bessere Leistung erreichen

Benchmarks

Generierungsgeschwindigkeit (Token/Sekunde)

Modell
RTX 3060
RTX 3090
RTX 4090
A100 40GB

Llama 3.2 3B (Q4)

120

160

200

220

Llama 3.1 8B (Q4)

60

100

130

150

Llama 3.1 8B (Q8)

45

80

110

130

Mistral 7B (Q4)

70

110

140

160

Mixtral 8x7B (Q4)

-

35

55

75

Llama 3.1 70B (Q4)

-

-

18

35

DeepSeek-R1 7B (Q4)

65

105

135

155

DeepSeek-R1 32B (Q4)

-

-

22

42

Qwen2.5 72B (Q4)

-

-

15

30

Phi-4 14B (Q4)

-

50

75

90

Benchmarks aktualisiert Januar 2026. Tatsächliche Geschwindigkeiten können je nach Serverkonfiguration variieren.

Zeit bis zum ersten Token (ms)

Modell
RTX 3090
RTX 4090
A100

3B

50

35

25

7-8B

120

80

60

13B

250

150

100

34B

600

350

200

70B

-

1200

500

Kontextlänge vs. VRAM (Q4)

Modell
2K ctx
4K ctx
8K ctx
16K ctx

7B

5GB

6GB

8GB

12GB

13B

8GB

10GB

14GB

22GB

34B

20GB

24GB

32GB

48GB

70B

40GB

48GB

64GB

96GB

GPU-Anforderungen

Modell
Q4 VRAM
Q8 VRAM

3B

3GB

5GB

7-8B

5GB

9GB

13B

8GB

15GB

34B

20GB

38GB

70B

40GB

75GB

Kostenabschätzung

Typische CLORE.AI-Marktplatzpreise:

GPU
VRAM
Preis/Tag
Geeignet für

RTX 3060

12GB

$0.15–0.30

7B-Modelle

RTX 3090

24GB

$0.30–1.00

13B-34B-Modelle

RTX 4090

24GB

$0.50–2.00

34B-Modelle, schnell

A100

40GB

$1.50–3.00

70B-Modelle

Preise in USD/Tag. Die Tarife variieren je nach Anbieter — prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Fehlerbehebung

Modell lädt nicht

Langsame Generierung

Verbindung verweigert

HTTP 502 auf http_pub-URL

Das bedeutet, dass der Dienst noch startet. Warten Sie 30–60 Sekunden und versuchen Sie es erneut:

Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?