Open WebUI

ChatGPT‑ähnliche Oberfläche zum Ausführen von LLMs auf Clore.ai‑GPUs

Schöne ChatGPT-ähnliche Oberfläche zum Ausführen von LLMs auf CLORE.AI-GPUs.

Alle Beispiele können auf GPU-Servern ausgeführt werden, die über CLORE.AI Marketplace.

Warum Open WebUI?

ChatGPT-ähnliche Benutzeroberfläche - Vertraute, ausgefeilte Oberfläche
Multi-Modell - Einfaches Wechseln zwischen Modellen
RAG integriert - Dokumente zum Kontext hochladen
Benutzerverwaltung - Mehrbenutzerunterstützung
Verlauf - Gesprächs-Persistenz
Ollama-Integration - Funktioniert sofort

Schnelle Bereitstellung auf CLORE.AI

Docker-Image:

ghcr.io/open-webui/open-webui:cuda

Ports:

22/tcp
8080/http

Befehl:

# Ollama im Hintergrund starten
ollama serve &
sleep 5
ollama pull llama3.2

# Open WebUI starten (verbindet sich automatisch mit Ollama)
# Hinweis: Das Docker-Image kümmert sich darum

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

Gehen Sie zur Meine Bestellungen Seite
Klicken Sie auf Ihre Bestellung
Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Überprüfen, ob es funktioniert

# Gesundheit prüfen
curl https://your-http-pub.clorecloud.net/health

# Version abrufen
curl https://your-http-pub.clorecloud.net/api/version

Antwort:

{"version": "0.7.2"}

Wenn du HTTP 502 erhältst, warte 1–2 Minuten - der Dienst startet noch.

Installation

Mit Ollama (empfohlen)

# Zuerst Ollama starten
docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# Ein Modell herunterladen
docker exec -it ollama ollama pull llama3.2

# Open WebUI starten
docker run -d -p 8080:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

All-in-One (mitgeliefertes Ollama)

docker run -d -p 8080:8080 \
  --gpus all \
  -v ollama:/root/.ollama \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:ollama

Erste Einrichtung

Öffnen http://your-server:8080
Admin-Konto erstellen (der erste Benutzer wird Admin)
Gehe zu Einstellungen → Modelle → Ein Modell herunterladen
Beginne zu chatten!

Funktionen

Chat-Oberfläche

Markdown-Darstellung
Code-Hervorhebung
Bildgenerierung (mit kompatiblen Modellen)
Sprach-Ein-/Ausgabe
Dateianhänge

Modellverwaltung

Modelle direkt aus der UI herunterladen
Eigene Modelle erstellen
Standardmodell festlegen
Modellspezifische Einstellungen

RAG (Dokumenten-Chat)

Klicke auf "+" im Chat
PDF-, TXT- oder andere Dokumente hochladen
Fragen zum Inhalt stellen

Benutzerverwaltung

Mehrere Benutzer
Rollenbasierter Zugriff
API-Schlüsselverwaltung
Nutzungsverfolgung

Konfiguration

Umgebungsvariablen

docker run -d \
  -e OLLAMA_BASE_URL=http://ollama:11434 \
  -e WEBUI_AUTH=True \
  -e WEBUI_NAME="My AI Chat" \
  -e DEFAULT_MODELS="llama3.2" \
  ghcr.io/open-webui/open-webui:main

Wichtige Einstellungen

Variable

Beschreibung

Standard

OLLAMA_BASE_URL

Ollama API-URL

http://localhost:11434

WEBUI_AUTH

Authentifizierung aktivieren

True

WEBUI_NAME

Instanzname

WebUI öffnen

DEFAULT_MODELS

Standardmodell

ENABLE_RAG_WEB_SEARCH

Websuche in RAG

False

Mit Remote-Ollama verbinden

docker run -d -p 8080:8080 \
  -e OLLAMA_BASE_URL=http://remote-server:11434 \
  ghcr.io/open-webui/open-webui:main

Docker Compose

version: '3.8'

services:
  ollama:
    image: ollama/ollama
    container_name: ollama
    volumes:
      - ollama:/root/.ollama
    ports:
      - "11434:11434"
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    volumes:
      - open-webui:/app/backend/data
    ports:
      - "8080:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    depends_on:
      - ollama

volumes:
  ollama:
  open-webui:

docker-compose up -d

API-Referenz

Open WebUI stellt mehrere API-Endpunkte bereit:

Endpunkt

Methode

Beschreibung

/health

GET

Health-Check

/api/version

GET

Open WebUI-Version abrufen

/api/config

GET

Konfiguration abrufen

/ollama/api/tags

GET

Ollama-Modelle auflisten (proxied)

/ollama/api/chat

POST

Mit Ollama chatten (proxied)

Gesundheitsprüfung

curl https://your-http-pub.clorecloud.net/health

Antwort: true

Version abrufen

curl https://your-http-pub.clorecloud.net/api/version

Antwort:

{"version": "0.7.2"}

Modelle auflisten (über Ollama-Proxy)

curl https://your-http-pub.clorecloud.net/ollama/api/tags

Die meisten API-Operationen erfordern Authentifizierung. Verwende die Weboberfläche, um ein Konto zu erstellen und API-Schlüssel zu verwalten.

Tipps

Schnellere Antworten

Verwende quantisierte Modelle (Q4_K_M)
Streaming in den Einstellungen aktivieren
Bei Bedarf Kontextlänge reduzieren

Bessere Qualität

Verwende größere Modelle (13B+)
Verwende Q8-Quantisierung
Temperatur in den Modelleinstellungen anpassen

Ressourcen sparen

Setze OLLAMA_KEEP_ALIVE=5m
Unbenutzte Modelle entladen
Für Tests kleinere Modelle verwenden

GPU-Anforderungen

Das Gleiche wie Ollama.

Open WebUI selbst benötigt minimale Ressourcen (~500MB RAM).

Fehlerbehebung

Kann keine Verbindung zu Ollama herstellen

# Prüfe, ob Ollama läuft
curl http://localhost:11434/api/tags

# Wenn Docker verwendet wird, nutze Host-Netzwerk oder die korrekte URL
docker run --network=host ghcr.io/open-webui/open-webui:main

Modelle werden nicht angezeigt

Verbindung zu Ollama in den Einstellungen prüfen
Modellliste aktualisieren
Modelle über CLI herunterladen: ollama pull modelname

Langsame Leistung

Prüfe, ob die GPU verwendet wird: nvidia-smi
Versuche kleinere/quantisierte Modelle
Gleichzeitige Benutzer reduzieren

Kostenabschätzung

Einrichtung

GPU

Stündlich

Basic (7B)

RTX 3060

~$0.03

Standard (13B)

RTX 3090

~$0.06

Erweitert (34B)

RTX 4090

~$0.10

Enterprise (70B)

A100

~$0.17

Nächste Schritte

Ollama - CLI-Nutzung
LocalAI - Mehr Backends
RAG + LangChain - Erweitertes RAG

VorherigeOllama NächstevLLM

Zuletzt aktualisiert vor 24 Tagen

War das hilfreich?

hashtagWarum Open WebUI?

hashtagSchnelle Bereitstellung auf CLORE.AI

hashtagZugriff auf Ihren Dienst

hashtagÜberprüfen, ob es funktioniert

hashtagInstallation

hashtagMit Ollama (empfohlen)

hashtagAll-in-One (mitgeliefertes Ollama)

hashtagErste Einrichtung

hashtagFunktionen

hashtagChat-Oberfläche

hashtagModellverwaltung

hashtagRAG (Dokumenten-Chat)

hashtagBenutzerverwaltung

hashtagKonfiguration

hashtagUmgebungsvariablen

hashtagWichtige Einstellungen

hashtagMit Remote-Ollama verbinden

hashtagDocker Compose

hashtagAPI-Referenz

hashtagGesundheitsprüfung

hashtagVersion abrufen

hashtagModelle auflisten (über Ollama-Proxy)

hashtagTipps

hashtagSchnellere Antworten

hashtagBessere Qualität

hashtagRessourcen sparen

hashtagGPU-Anforderungen

hashtagFehlerbehebung

hashtagKann keine Verbindung zu Ollama herstellen

hashtagModelle werden nicht angezeigt

hashtagLangsame Leistung

hashtagKostenabschätzung

hashtagNächste Schritte

Warum Open WebUI?

Schnelle Bereitstellung auf CLORE.AI

Zugriff auf Ihren Dienst

Überprüfen, ob es funktioniert

Installation

Mit Ollama (empfohlen)

All-in-One (mitgeliefertes Ollama)

Erste Einrichtung

Funktionen

Chat-Oberfläche

Modellverwaltung

RAG (Dokumenten-Chat)

Benutzerverwaltung

Konfiguration

Umgebungsvariablen

Wichtige Einstellungen

Mit Remote-Ollama verbinden

Docker Compose

API-Referenz

Gesundheitsprüfung

Version abrufen

Modelle auflisten (über Ollama-Proxy)

Tipps

Schnellere Antworten

Bessere Qualität

Ressourcen sparen

GPU-Anforderungen

Fehlerbehebung

Kann keine Verbindung zu Ollama herstellen

Modelle werden nicht angezeigt

Langsame Leistung

Kostenabschätzung

Nächste Schritte