Docker 镜像

用于在 Clore.ai 上部署 AI 工作负载的即用型 Docker 镜像

用于在 CLORE.AI 上部署 AI 工作负载的即用型 Docker 镜像。

circle-check

快速部署参考

最受欢迎

任务
镜像
端口

与 AI 聊天

ollama/ollama

22, 11434

类似 ChatGPT 的界面

ghcr.io/open-webui/open-webui

22, 8080

图像生成

universonic/stable-diffusion-webui

22, 7860

基于节点的图像生成

yanwk/comfyui-boot

22, 8188

LLM API 服务器

vllm/vllm-openai

22, 8000


语言模型

Ollama

通用 LLM 运行器 - 运行任何模型的最简单方法。

镜像:ollama/ollama
端口:22/tcp, 11434/http
命令:ollama serve

部署后:

环境变量:


打开 WebUI

Ollama 的类似 ChatGPT 界面。

包含内置 Ollama。通过 HTTP 端口访问。

独立(连接到现有 Ollama):


vLLM

具有 OpenAI 兼容 API 的高性能 LLM 服务。

对于更大模型(多 GPU):

环境变量:


Text Generation Inference (TGI)

HuggingFace 的生产级 LLM 服务器。

环境变量:


图像生成

Stable Diffusion WebUI(AUTOMATIC1111)

最受欢迎的带扩展的 SD 界面。

对于低显存(8GB 或更低):

用于 API 访问:


ComfyUI

面向高级用户的基于节点的工作流。

替代镜像:

手动安装命令:


- 将重光图像转换为 3D

简化的 SD 界面,类似 Midjourney。


FLUX

最新的高质量图像生成。

使用带 FLUX 节点的 ComfyUI:

或通过 Diffusers:


视频生成

Stable Video Diffusion


AnimateDiff

与 ComfyUI 一起使用:

通过 ComfyUI 管理器安装 AnimateDiff 节点。


音频与语音

Whisper(转录)

API 用法:


Bark(文本转语音)


Stable Audio


视觉模型

LLaVA


Llama 3.2 Vision

使用 Ollama:


开发与训练

PyTorch 基础

用于自定义设置和训练。

包含:CUDA 12.1、cuDNN 8、PyTorch 2.1


Jupyter Lab

用于机器学习的交互式笔记本。

或使用带 Jupyter 的 PyTorch 基础:


Kohya 训练

用于 LoRA 和模型微调。


基础镜像参考

NVIDIA 官方

镜像
CUDA
模型变体

nvidia/cuda:12.1.0-devel-ubuntu22.04

12.1

CUDA 开发

nvidia/cuda:12.1.0-runtime-ubuntu22.04

12.1

仅 CUDA 运行时

nvidia/cuda:11.8.0-devel-ubuntu22.04

11.8

遗留兼容性

PyTorch 官方

镜像
PyTorch
CUDA

pytorch/pytorch:2.5.1-cuda12.4-cudnn9-devel

2.5

12.4

pytorch/pytorch:2.0.1-cuda11.7-cudnn8-devel

2.0

11.7

pytorch/pytorch:1.13.1-cuda11.6-cudnn8-devel

1.13

11.6

HuggingFace

镜像
用途

huggingface/transformers-pytorch-gpu

Transformers + PyTorch

ghcr.io/huggingface/text-generation-inference

TGI 服务器


使用环境变量进行 SSH 和 Jupyter 访问:

常用变量

变量
4s
示例

HUGGING_FACE_HUB_TOKEN

用于受限模型的 HF API 令牌

hf_xxx

CUDA_VISIBLE_DEVICES

GPU 选择

0,1

TRANSFORMERS_CACHE

模型缓存目录

/root/.cache

Ollama 变量

变量
4s
默认值

OLLAMA_HOST

绑定地址

127.0.0.1

OLLAMA_MODELS

模型目录

~/.ollama/models

OLLAMA_NUM_PARALLEL

并行请求数

1

vLLM 变量

变量
4s

VLLM_ATTENTION_BACKEND

注意力实现

VLLM_USE_MODELSCOPE

使用 ModelScope 而非 HF


端口参考

端口
协议
服务

22

TCP

SSH

7860

HTTP

Gradio(SD WebUI、Fooocus)

7865

HTTP

Fooocus 替代项

8000

HTTP

vLLM API

8080

HTTP

Open WebUI、TGI

8188

HTTP

ComfyUI

8888

HTTP

Jupyter

9000

HTTP

Whisper API

11434

TCP

Ollama API


提示

持久存储

挂载卷以在重启之间保留数据:

GPU 选择

对于多 GPU 系统:

内存管理

如果显存不足:

  1. 使用更小的模型

  2. 启用 CPU 卸载

  3. 减少批量大小

  4. 使用量化模型(GGUF Q4)

使用以下方式支付

最后更新于

这有帮助吗?