Open WebUI

Interfaz tipo ChatGPT para ejecutar LLMs en las GPU de Clore.ai

Hermosa interfaz tipo ChatGPT para ejecutar LLMs en GPUs de CLORE.AI.

Todos los ejemplos se pueden ejecutar en servidores GPU alquilados a través de CLORE.AI Marketplace.

¿Por qué Open WebUI?

Interfaz tipo ChatGPT - Interfaz familiar y pulida
Multi-modelo - Cambia entre modelos fácilmente
RAG incorporado - Sube documentos para contexto
Gestión de usuarios - Soporte multiusuario
Historial - Persistencia de conversaciones
Integración con Ollama - Funciona desde el primer momento

Despliegue rápido en CLORE.AI

Imagen Docker:

ghcr.io/open-webui/open-webui:cuda

Puertos:

22/tcp
8080/http

Comando:

# Iniciar Ollama en segundo plano
ollama serve &
sleep 5
ollama pull llama3.2

# Iniciar Open WebUI (se conecta a Ollama automáticamente)
# Nota: La imagen de Docker se encarga de esto

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

Ir a Mis Pedidos página
Haz clic en tu pedido
Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Verificar que funciona

# Comprobar salud
curl https://your-http-pub.clorecloud.net/health

# Obtener versión
curl https://your-http-pub.clorecloud.net/api/version

Respuesta:

{"version": "0.7.2"}

Si obtienes HTTP 502, espera 1-2 minutos: el servicio aún se está iniciando.

Instalación

Con Ollama (Recomendado)

# Inicia Ollama primero
docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# Descargar un modelo
docker exec -it ollama ollama pull llama3.2

# Iniciar Open WebUI
docker run -d -p 8080:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Todo en Uno (Ollama incluido)

docker run -d -p 8080:8080 \
  --gpus all \
  -v ollama:/root/.ollama \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:ollama

Primeros pasos

Abrir http://tu-servidor:8080
Crea una cuenta de administrador (el primer usuario se convierte en administrador)
Ve a Configuración → Modelos → Descargar un modelo
¡Comienza a chatear!

Características

Interfaz de chat

Renderizado Markdown
Resaltado de código
Generación de imágenes (con modelos compatibles)
Entrada/salida de voz
Adjuntos de archivos

Gestión de modelos

Descargar modelos directamente desde la IU
Crear modelos personalizados
Establecer modelo predeterminado
Ajustes específicos por modelo

RAG (Chat con documentos)

Haz clic en "+" en el chat
Sube PDF, TXT u otros documentos
Haz preguntas sobre el contenido

Gestión de usuarios

Usuarios múltiples
Acceso basado en roles
Gestión de claves API
Seguimiento de uso

Configuración

Variables de entorno

docker run -d \
  -e OLLAMA_BASE_URL=http://ollama:11434 \
  -e WEBUI_AUTH=True \
  -e WEBUI_NAME="Mi Chat IA" \
  -e DEFAULT_MODELS="llama3.2" \
  ghcr.io/open-webui/open-webui:main

Ajustes clave

Variable

Descripción

Valor por defecto

OLLAMA_BASE_URL

URL de la API de Ollama

http://localhost:11434

WEBUI_AUTH

Habilitar autenticación

True

WEBUI_NAME

Nombre de la instancia

Abrir WebUI

DEFAULT_MODELS

Modelo predeterminado

ENABLE_RAG_WEB_SEARCH

Búsqueda web en RAG

False

Conectar a Ollama remoto

docker run -d -p 8080:8080 \
  -e OLLAMA_BASE_URL=http://remote-server:11434 \
  ghcr.io/open-webui/open-webui:main

Docker Compose

versión: '3.8'

services:
  ollama:
    image: ollama/ollama
    container_name: ollama
    volumes:
      - ollama:/root/.ollama
    ports:
      - "11434:11434"
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    volumes:
      - open-webui:/app/backend/data
    ports:
      - "8080:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    depends_on:
      - ollama

volumes:
  ollama:
  open-webui:

docker-compose up -d

Referencia de la API

Open WebUI proporciona varios endpoints de API:

Endpoint

Método

Descripción

/health

GET

Comprobación de salud

/api/version

GET

Obtener la versión de Open WebUI

/api/config

GET

Obtener configuración

/ollama/api/tags

GET

Listar modelos de Ollama (a través de proxy)

/ollama/api/chat

POST

Chatear con Ollama (a través de proxy)

Comprobar estado

curl https://your-http-pub.clorecloud.net/health

Respuesta: true

Obtener versión

curl https://your-http-pub.clorecloud.net/api/version

Respuesta:

{"version": "0.7.2"}

Listar modelos (a través del proxy de Ollama)

curl https://your-http-pub.clorecloud.net/ollama/api/tags

La mayoría de las operaciones de la API requieren autenticación. Usa la interfaz web para crear una cuenta y administrar claves API.

Consejos

Respuestas más rápidas

Usa modelos cuantizados (Q4_K_M)
Habilita el streaming en ajustes
Reduce la longitud del contexto si es necesario

Mejor calidad

Usa modelos más grandes (13B+)
Usa cuantización Q8
Ajusta la temperatura en la configuración del modelo

Ahorrar recursos

Establecer OLLAMA_KEEP_ALIVE=5m
Descargar modelos no usados
Usa modelos más pequeños para pruebas

Requisitos de GPU

Lo mismo que Ollama.

Open WebUI en sí utiliza recursos mínimos (~500MB de RAM).

Solución de problemas

No se puede conectar a Ollama

# Comprueba que Ollama se está ejecutando
curl http://localhost:11434/api/tags

# Si usas Docker, usa la red del host o la URL correcta
docker run --network=host ghcr.io/open-webui/open-webui:main

Los modelos no aparecen

Comprueba la conexión con Ollama en Configuración
Actualizar la lista de modelos
Descargar modelos vía CLI: ollama pull modelname

Rendimiento lento

Comprueba que se está usando la GPU: nvidia-smi
Prueba modelos más pequeños/cuántizados
Reduce usuarios concurrentes

Estimación de costos

Configuración

GPU

Por hora

Básico (7B)

RTX 3060

~$0.03

Estándar (13B)

RTX 3090

~$0.06

Avanzado (34B)

RTX 4090

~$0.10

Empresarial (70B)

A100

~$0.17

Próximos pasos

Ollama - Uso de CLI
LocalAI - Más backends
RAG + LangChain - RAG avanzado

AnteriorOllama SiguientevLLM

Última actualización hace 21 días

¿Te fue útil?

hashtag¿Por qué Open WebUI?

hashtagDespliegue rápido en CLORE.AI

hashtagAccediendo a tu servicio

hashtagVerificar que funciona

hashtagInstalación

hashtagCon Ollama (Recomendado)

hashtagTodo en Uno (Ollama incluido)

hashtagPrimeros pasos

hashtagCaracterísticas

hashtagInterfaz de chat

hashtagGestión de modelos

hashtagRAG (Chat con documentos)

hashtagGestión de usuarios

hashtagConfiguración

hashtagVariables de entorno

hashtagAjustes clave

hashtagConectar a Ollama remoto

hashtagDocker Compose

hashtagReferencia de la API

hashtagComprobar estado

hashtagObtener versión

hashtagListar modelos (a través del proxy de Ollama)

hashtagConsejos

hashtagRespuestas más rápidas

hashtagMejor calidad

hashtagAhorrar recursos

hashtagRequisitos de GPU

hashtagSolución de problemas

hashtagNo se puede conectar a Ollama

hashtagLos modelos no aparecen

hashtagRendimiento lento

hashtagEstimación de costos

hashtagPróximos pasos

¿Por qué Open WebUI?

Despliegue rápido en CLORE.AI

Accediendo a tu servicio

Verificar que funciona

Instalación

Con Ollama (Recomendado)

Todo en Uno (Ollama incluido)

Primeros pasos

Características

Interfaz de chat

Gestión de modelos

RAG (Chat con documentos)

Gestión de usuarios

Configuración

Variables de entorno

Ajustes clave

Conectar a Ollama remoto

Docker Compose

Referencia de la API

Comprobar estado

Obtener versión

Listar modelos (a través del proxy de Ollama)

Consejos

Respuestas más rápidas

Mejor calidad

Ahorrar recursos

Requisitos de GPU

Solución de problemas

No se puede conectar a Ollama

Los modelos no aparecen

Rendimiento lento

Estimación de costos

Próximos pasos