Ollama
Führen Sie LLMs lokal mit Ollama auf Clore.ai GPUs aus
Serveranforderungen
Parameter
Minimum
Empfohlen
Warum Ollama?
Schnelle Bereitstellung auf CLORE.AI
Überprüfen, ob es funktioniert
Zugriff auf Ihren Dienst
Installation
Verwendung von Docker (empfohlen)
Manuelle Installation
Modelle ausführen
Herunterladen und Ausführen
Beliebte Modelle
Modell
Größe
Einsatzgebiet
Modellvarianten
Neu in v0.6+
Strukturierte Ausgaben (JSON-Schema)
OpenAI-kompatibler Embeddings-Endpunkt (/api/embed)
/api/embed)Gleichzeitiges Laden von Modellen
API-Nutzung
Chat Completion
OpenAI-kompatibler Endpunkt
Streaming
Embeddings
Textgenerierung (Nicht-Chat)
Vollständige API-Referenz
Modellverwaltung
Endpunkt
Methode
Beschreibung
Modelle auflisten
Modelldetails anzeigen
Modell per API ziehen
Modell löschen
Laufende Modelle auflisten
Version abrufen
Inference-Endpunkte
Endpunkt
Methode
Beschreibung
Erstellung benutzerdefinierter Modelle
GPU-Konfiguration
GPU-Auslastung prüfen
Multi-GPU
Speicherverwaltung
Benutzerdefinierte Modelle (Modelfile)
Als Dienst ausführen
Systemd
Performance-Tipps
Benchmarks
Generierungsgeschwindigkeit (Token/Sekunde)
Modell
RTX 3060
RTX 3090
RTX 4090
A100 40GB
Zeit bis zum ersten Token (ms)
Modell
RTX 3090
RTX 4090
A100
Kontextlänge vs. VRAM (Q4)
Modell
2K ctx
4K ctx
8K ctx
16K ctx
GPU-Anforderungen
Modell
Q4 VRAM
Q8 VRAM
Kostenabschätzung
GPU
VRAM
Preis/Tag
Geeignet für
Fehlerbehebung
Modell lädt nicht
Langsame Generierung
Verbindung verweigert
HTTP 502 auf http_pub-URL
Nächste Schritte
Zuletzt aktualisiert
War das hilfreich?