Jan.ai Offline-Assistent

Setzen Sie den Jan.ai-Server auf Clore.ai ein — ein vollständig offline arbeitender, OpenAI-kompatibler LLM-Server mit Modell-Hub, Gesprächsverwaltung und GPU-beschleunigter Inferenz, angetrieben vom Cortex-Engine.

Überblick

Jan.aiarrow-up-right ist eine Open-Source-, datenschutzorientierte ChatGPT-Alternative mit über 40.000 GitHub-Sternen. Während Jan am bekanntesten als Desktop-Anwendung ist, stellt seine Serverkomponente — Jan Server — eine vollständig OpenAI-kompatible REST-API bereit, die auf Cloud-GPU-Infrastrukturen wie Clore.ai bereitgestellt werden kann.

Jan Server basiert auf der Cortex.cpparrow-up-right Inference-Engine, einer leistungsstarken Laufzeitumgebung, die llama.cpp, TensorRT-LLMund ONNX-Backends unterstützt. Auf Clore.ai können Sie einen GPU-Server schon ab $0.20/hrmieten, Jan Server mit Docker Compose ausführen, jedes GGUF- oder GPTQ-Modell laden und es über eine OpenAI-kompatible API bereitstellen — alles, ohne dass Ihre Daten die Maschine verlassen.

Hauptfunktionen:

  • 🔒 100% offline — keine Daten verlassen jemals Ihren Server

  • 🤖 OpenAI-kompatible API (/v1/chat/completions, /v1/models, etc.)

  • 📦 Modell-Hub mit Ein-Kommando-Modell-Downloads

  • 🚀 GPU-Beschleunigung via CUDA (llama.cpp + TensorRT-LLM Backends)

  • 💬 Eingebaute Gesprächsverwaltung und Thread-Historie

  • 🔌 Drop-in-Ersatz für OpenAI in bestehenden Anwendungen


Anforderungen

Hardware-Anforderungen

Tier
GPU
VRAM
RAM
Speicher
Clore.ai-Preis

Minimum

RTX 3060 12GB

12 GB

16 GB

50 GB SSD

~0,10 $/Std.

Empfohlen

RTX 3090

24 GB

32 GB

100 GB SSD

~$0.20/Stunde

High-End

RTX 4090

24 GB

64 GB

200 GB SSD

~$0.35/Stunde

Große Modelle

A100 80GB

80 GB

128 GB

500 GB SSD

~$1.10/Stunde

Referenz für Modell-VRAM

Modell
Benötigter VRAM
Empfohlene GPU

Llama 3.1 8B (Q4)

~5 GB

RTX 3060

Llama 3.1 8B (FP16)

~16 GB

RTX 3090

Llama 3.3 70B (Q4)

~40 GB

A100 40GB

Llama 3.1 405B (Q4)

~220 GB

4× A100 80GB

Mistral 7B (Q4)

~4 GB

RTX 3060

Qwen2.5 72B (Q4)

~45 GB

A100 80GB

Software-Voraussetzungen

  • Clore.ai-Konto mit aufgeladenem Wallet

  • Grundkenntnisse in Docker

  • (Optional) OpenSSH-Client für Port-Forwarding


Schnellstart

Schritt 1 — Mieten Sie einen GPU-Server auf Clore.ai

  1. Navigieren Sie zu clore.aiarrow-up-right und melden Sie sich an

  2. Server filtern: GPU-Typ → RTX 3090 oder besser, Docker → aktiviert

  3. Wählen Sie einen Server und wählen Sie die Docker Bereitstellungsoption

  4. Verwenden Sie das offizielle nvidia/cuda:12.1.0-devel-ubuntu22.04 Basis-Image oder ein beliebiges CUDA-Image

  5. Offene Ports: 1337 (Jan Server API), 39281 (Cortex API), 22 (SSH)

Schritt 2 — Mit Ihrem Server verbinden

Schritt 3 — Docker Compose installieren (falls nicht vorhanden)

Schritt 4 — Jan Server mit Docker Compose bereitstellen

Wenn die Upstream-Compose-Datei nicht verfügbar ist oder Sie vollständige Kontrolle möchten, erstellen Sie sie manuell:

Schritt 5 — Überprüfen, ob der Server läuft

Schritt 6 — Ihr erstes Modell ziehen

Schritt 7 — Modell starten & chatten


Konfiguration

Umgebungsvariablen

Variable
Standard
Beschreibung

JAN_API_HOST

0.0.0.0

Host, an den der API-Server gebunden wird

JAN_API_PORT

1337

Jan Server API-Port

CORTEX_API_PORT

39281

Interner Cortex-Engine-Port

CUDA_VISIBLE_DEVICES

all

Welche GPUs freigegeben werden sollen (durch Kommas getrennte Indizes)

JAN_DATA_FOLDER

/root/jan

Pfad zum Jan-Datenordner

CORTEX_MODELS_PATH

/root/cortex/models

Pfad zum Modell-Speicher

Multi-GPU-Konfiguration

Für Server mit mehreren GPUs (z. B. 2× RTX 3090 auf Clore.ai):

Oder um bestimmte GPUs zuzuweisen:

Benutzerdefinierte Modellkonfiguration

Die API mit einem Token absichern

Jan Server enthält standardmäßig keine Authentifizierung. Verwenden Sie Nginx als Reverse-Proxy:


GPU-Beschleunigung

CUDA-Beschleunigung verifizieren

Die Cortex-Engine von Jan Server erkennt CUDA automatisch. Überprüfen Sie, ob die GPU verwendet wird:

Inference-Backends wechseln

Cortex unterstützt mehrere Backends:

Anpassung von Context Window und Batch-Größe

Parameter
Beschreibung
Empfehlung

ngl

GPU-Schichten (höher = mehr GPU-Nutzung)

Auf 99 setzen, um die GPU maximal auszunutzen

ctx_len

Größe des Kontextfensters

4096–32768 je nach VRAM

n_batch

Batch-Größe für die Prompt-Verarbeitung

512 für RTX 3090, 256 für kleinere

n_parallel

Parallele Anfrageslots

4–8 für den API-Server-Betrieb


Tipps & bewährte Methoden

🎯 Modellauswahl für Clore.ai-Budgets

💾 Persistenter Modellspeicher

Da Clore.ai-Instanzen ephemer sind, sollten Sie in Erwägung ziehen, externen Speicher einzuhängen:

🔗 Jan Server als OpenAI-Drop-in verwenden

📊 Überwachung der Ressourcennutzung


Fehlerbehebung

Container startet nicht — GPU nicht gefunden

Modell-Download bleibt hängen oder schlägt fehl

Kein VRAM mehr (CUDA out of memory)

Keine Verbindung zur API von außerhalb des Containers möglich

Langsame Inferenz (CPU-Fallback)


Weiterführende Lektüre

💡 Kosten-Tipp: Eine RTX 3090 auf Clore.ai (~$0.20/hr) kann Llama 3.1 8B mit ~50 Tokens/Sekunde — ausreichend für den persönlichen Gebrauch oder API mit geringem Traffic. Für Produktionslasten sollten Sie vLLM in Erwägung ziehen (siehe vLLM-Anleitung) auf einer A100.

Zuletzt aktualisiert

War das hilfreich?