Docker-Images

Bereit zum Einsatz: Docker-Images für KI-Workloads auf Clore.ai

Bereit zum Bereitstellen: Docker-Images für KI-Workloads auf CLORE.AI.

circle-check

Schnellbereitstellungsreferenz

Beliebteste

Aufgabe
Image
Ports

Mit KI chatten

ollama/ollama

22, 11434

ChatGPT-ähnliche Benutzeroberfläche

ghcr.io/open-webui/open-webui

22, 8080

Bildgenerierung

universonic/stable-diffusion-webui

22, 7860

Knotenbasierte Bildgenerierung

yanwk/comfyui-boot

22, 8188

LLM-API-Server

vllm/vllm-openai

22, 8000


Sprachmodelle

Ollama

Universeller LLM-Runner – der einfachste Weg, jedes Modell auszuführen.

Image: ollama/ollama
Ports: 22/tcp, 11434/http
Befehl: ollama serve

Nach der Bereitstellung:

Umgebungsvariablen:


WebUI öffnen

ChatGPT-ähnliche Oberfläche für Ollama.

Enthält Ollama integriert. Zugriff über HTTP-Port.

Standalone (mit vorhandenem Ollama verbinden):


vLLM

Leistungsstarkes LLM-Serving mit OpenAI-kompatibler API.

Für größere Modelle (Multi-GPU):

Umgebungsvariablen:


Text Generation Inference (TGI)

HuggingFace's Produktions-LLM-Server.

Umgebungsvariablen:


Bildgenerierung

Stable Diffusion WebUI (AUTOMATIC1111)

Beliebteste SD-Oberfläche mit Erweiterungen.

Für wenig VRAM (8GB oder weniger):

Für API-Zugriff:


ComfyUI

Knotenbasierter Workflow für fortgeschrittene Benutzer.

Alternative Images:

Manueller Setup-Befehl:


Fooocus

Vereinfachte SD-Oberfläche, Midjourney-ähnlich.


FLUX

Neueste hochwertige Bildgenerierung.

ComfyUI mit FLUX-Nodes verwenden:

Oder über Diffusers:


Videogenerierung

Stable Video Diffusion


AnimateDiff

Verwendung mit ComfyUI:

Installiere AnimateDiff-Nodes über den ComfyUI Manager.


Audio & Stimme

Whisper (Transkription)

API-Nutzung:


Bark (Text-to-Speech)


Stable Audio


Visionsmodelle

LLaVA


Llama 3.2 Vision

Ollama verwenden:


Entwicklung & Training

PyTorch-Basis

Für benutzerdefinierte Setups und Training.

Enthält: CUDA 12.1, cuDNN 8, PyTorch 2.1


Jupyter Lab

Interaktive Notebooks für ML.

Oder verwende die PyTorch-Basis mit Jupyter:


Kohya Training

Für LoRA und Feinabstimmung von Modellen.


Referenz für Basis-Images

NVIDIA Offiziell

Image
CUDA
Einsatzgebiet

nvidia/cuda:12.1.0-devel-ubuntu22.04

12.1

CUDA-Entwicklung

nvidia/cuda:12.1.0-runtime-ubuntu22.04

12.1

Nur CUDA-Laufzeit

nvidia/cuda:11.8.0-devel-ubuntu22.04

11.8

Legacy-Kompatibilität

PyTorch Offiziell

Image
PyTorch
CUDA

pytorch/pytorch:2.5.1-cuda12.4-cudnn9-devel

2.5

12.4

pytorch/pytorch:2.0.1-cuda11.7-cudnn8-devel

2.0

11.7

pytorch/pytorch:1.13.1-cuda11.6-cudnn8-devel

1.13

11.6

HuggingFace

Image
Zweck

huggingface/transformers-pytorch-gpu

Transformers + PyTorch

ghcr.io/huggingface/text-generation-inference

TGI-Server


Umgebungsvariablen

Häufige Variablen

Variable
Beschreibung
Beispiel

HUGGING_FACE_HUB_TOKEN

HF-API-Token für gesperrte Modelle

hf_xxx

CUDA_VISIBLE_DEVICES

GPU-Auswahl

0,1

TRANSFORMERS_CACHE

Modell-Cache-Verzeichnis

/root/.cache

Ollama-Variablen

Variable
Beschreibung
Standard

OLLAMA_HOST

Bind-Adresse

127.0.0.1

OLLAMA_MODELS

Modelle-Verzeichnis

~/.ollama/models

OLLAMA_NUM_PARALLEL

Parallele Anfragen

1

vLLM-Variablen

Variable
Beschreibung

VLLM_ATTENTION_BACKEND

Attention-Implementierung

VLLM_USE_MODELSCOPE

ModelScope statt HF verwenden


Portreferenz

Port
Protokoll
Dienst

22

TCP

SSH

7860

HTTP

Gradio (SD WebUI, Fooocus)

7865

HTTP

Fooocus-Alternative

8000

HTTP

vLLM-API

8080

HTTP

Open WebUI, TGI

8188

HTTP

ComfyUI

8888

HTTP

Jupyter

9000

HTTP

Whisper-API

11434

TCP

Ollama-API


Tipps

Persistenter Speicher

Volumes einbinden, um Daten zwischen Neustarts zu behalten:

GPU-Auswahl

Für Multi-GPU-Systeme:

Speicherverwaltung

Wenn der VRAM knapp wird:

  1. Verwende kleinere Modelle

  2. CPU-Offload aktivieren

  3. Batch-Größe reduzieren

  4. Verwende quantisierte Modelle (GGUF Q4)

Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?