Imágenes Docker

Imágenes Docker listas para desplegar cargas de trabajo de IA en Clore.ai

Imágenes Docker listas para desplegar cargas de trabajo de IA en CLORE.AI.

circle-check

Referencia de Despliegue Rápido

Tarea
Imagen
Puertos

Chatear con IA

ollama/ollama

22, 11434

Interfaz tipo ChatGPT

ghcr.io/open-webui/open-webui

22, 8080

Generación de imágenes

universonic/stable-diffusion-webui

22, 7860

Generación de Imagen basada en Nodos

yanwk/comfyui-boot

22, 8188

Servidor API LLM

vllm/vllm-openai

22, 8000


Modelos de Lenguaje

Ollama

Ejecutor universal de LLM: la forma más fácil de ejecutar cualquier modelo.

Imagen: ollama/ollama
Puertos: 22/tcp, 11434/http
Comando: ollama serve

Después del despliegue:

Variables de entorno:


Abrir WebUI

Interfaz tipo ChatGPT para Ollama.

Incluye Ollama incorporado. Acceso vía puerto HTTP.

Independiente (conectar a un Ollama existente):


vLLM

Servicio LLM de alto rendimiento con API compatible con OpenAI.

Para modelos más grandes (multi-GPU):

Variables de entorno:


Text Generation Inference (TGI)

Servidor LLM de producción de HuggingFace.

Variables de entorno:


Generación de imágenes

Stable Diffusion WebUI (AUTOMATIC1111)

Interfaz SD más popular con extensiones.

Para poca VRAM (8GB o menos):

Para acceso vía API:


ComfyUI

Flujo de trabajo basado en nodos para usuarios avanzados.

Imágenes alternativas:

Comando de configuración manual:


Fooocus

Interfaz SD simplificada, similar a Midjourney.


FLUX

Generación de imágenes de alta calidad y última generación.

Usa ComfyUI con nodos FLUX:

O vía Diffusers:


Generación de Video

Stable Video Diffusion


AnimateDiff

Usar con ComfyUI:

Instala nodos AnimateDiff vía ComfyUI Manager.


Audio y Voz

Whisper (Transcripción)

Uso de la API:


Bark (Texto a Voz)


Stable Audio


Modelos de Visión

LLaVA


Llama 3.2 Vision

Usar Ollama:


Desarrollo y Entrenamiento

Base PyTorch

Para configuraciones personalizadas y entrenamiento.

Incluye: CUDA 12.1, cuDNN 8, PyTorch 2.1


Jupyter Lab

Cuadernos interactivos para ML.

O usa la base PyTorch con Jupyter:


Entrenamiento Kohya

Para LoRA y ajuste fino de modelos.


Referencia de Imágenes Base

Oficial de NVIDIA

Imagen
CUDA
Caso de uso

nvidia/cuda:12.1.0-devel-ubuntu22.04

12.1

Desarrollo CUDA

nvidia/cuda:12.1.0-runtime-ubuntu22.04

12.1

Solo runtime CUDA

nvidia/cuda:11.8.0-devel-ubuntu22.04

11.8

Compatibilidad heredada

Oficial de PyTorch

Imagen
PyTorch
CUDA

pytorch/pytorch:2.5.1-cuda12.4-cudnn9-devel

2.5

12.4

pytorch/pytorch:2.0.1-cuda11.7-cudnn8-devel

2.0

11.7

pytorch/pytorch:1.13.1-cuda11.6-cudnn8-devel

1.13

11.6

HuggingFace

Imagen
Propósito

huggingface/transformers-pytorch-gpu

Transformers + PyTorch

ghcr.io/huggingface/text-generation-inference

Servidor TGI


Variables de entorno

Variables Comunes

Variable
Descripción
Ejemplo

HUGGING_FACE_HUB_TOKEN

Token de la API de HF para modelos restringidos

hf_xxx

CUDA_VISIBLE_DEVICES

Selección de GPU

0,1

TRANSFORMERS_CACHE

Directorio de caché de modelos

/root/.cache

Variables de Ollama

Variable
Descripción
Valor por defecto

OLLAMA_HOST

Dirección de enlace

127.0.0.1

OLLAMA_MODELS

Directorio de modelos

~/.ollama/models

OLLAMA_NUM_PARALLEL

Peticiones en paralelo

1

Variables de vLLM

Variable
Descripción

VLLM_ATTENTION_BACKEND

Implementación de atención

VLLM_USE_MODELSCOPE

Usar ModelScope en lugar de HF


Referencia de Puertos

Puerto
Protocolo
Servicio

22

TCP

SSH

7860

HTTP

Gradio (SD WebUI, Fooocus)

7865

HTTP

Alternativa a Fooocus

8000

HTTP

API vLLM

8080

HTTP

Open WebUI, TGI

8188

HTTP

ComfyUI

8888

HTTP

Jupyter

9000

HTTP

API Whisper

11434

TCP

API de Ollama


Consejos

Almacenamiento Persistente

Monta volúmenes para conservar datos entre reinicios:

Selección de GPU

Para sistemas multi-GPU:

Gestión de memoria

Si te quedas sin VRAM:

  1. Usa modelos más pequeños

  2. Habilitar descarga a CPU

  3. Reducir el tamaño del lote

  4. Usa modelos cuantizados (GGUF Q4)

Próximos pasos

Última actualización

¿Te fue útil?