Plataforma de Flujo de Trabajo Dify.ai

Despliega Dify.ai en Clore.ai — crea flujos de trabajo de IA listos para producción, canalizaciones RAG y aplicaciones de agentes con una interfaz visual a precios de nube con GPU.

Resumen

Dify.aiarrow-up-right es una plataforma de desarrollo de aplicaciones LLM de código abierto con 114K+ estrellas en GitHub. Combina un constructor visual de flujos de trabajo, una canalización de generación aumentada por recuperación (RAG), orquestación de agentes, gestión de modelos y una capa de despliegue de API con un clic en una única pila autoalojable.

En Clore.ai puedes ejecutar la pila completa de Dify —incluida su base de datos Postgres, caché Redis, almacén vectorial Weaviate, proxy inverso Nginx, trabajadores de API y frontend web— en un servidor GPU alquilado por tan solo $0.20–$0.35/h (RTX 3090/4090). La GPU es opcional para Dify en sí, pero se vuelve esencial cuando integras inferencia de modelos locales a través de backends Ollama o vLLM.

Capacidades clave:

  • 🔄 Constructor visual de flujos — canalizaciones LLM de arrastrar y soltar con ramificaciones, bucles y lógica condicional

  • 📚 Canalización RAG — sube PDFs, URLs, páginas de Notion; fragmentación + embeddings + recuperación todo gestionado en la interfaz

  • 🤖 Modo agente — agentes ReAct y function-calling con uso de herramientas (búsqueda web, intérprete de código, APIs personalizadas)

  • 🚀 API primero — cada aplicación genera un endpoint REST y fragmentos de SDK al instante

  • 🔌 100+ integraciones de modelos — OpenAI, Anthropic, Mistral, Cohere, además de modelos locales vía Ollama/vLLM

  • 🏢 Multi-inquilino — equipos, espacios de trabajo, RBAC, cuotas de uso


Requisitos

Dify funciona como una pila multi-contenedor Docker Compose. El servidor mínimo viable para desarrollo es una instancia solo con CPU; para producción con inferencia de modelos locales querrás un nodo con GPU.

Configuración
GPU
VRAM
RAM del sistema
Disco
Precio de Clore.ai

Mínima (solo claves API)

Ninguno / Solo CPU

8 GB

30 GB

~$0.05/h (CPU)

Estándar

RTX 3080

10 GB

16 GB

50 GB

~$0.15/h

Recomendado

RTX 3090 / 4090

24 GB

32 GB

80 GB

$0.20–0.35/h

Producción + LLM local

A100 80 GB

80 GB

64 GB

200 GB

~$1.10/h

Alto rendimiento

H100 SXM

80 GB

128 GB

500 GB

~$2.50/h

Consejo: Si solo usas proveedores de API en la nube (OpenAI, Anthropic, etc.), cualquier instancia de CPU de 2 núcleos con 8 GB de RAM funciona. Una GPU importa solo cuando ejecutas modelos locales vía Ollama o vLLM — ver Aceleración por GPU más abajo.

Nota sobre el disco

Los datos de Weaviate y Postgres crecen rápidamente con las cargas de documentos. Provisión al menos 50 GB y monta almacenamiento persistente mediante las opciones de volúmenes de Clore.ai.


Inicio rápido

1. Alquila un servidor Clore.ai

Navega a clore.aiarrow-up-right, filtra por la GPU deseada y despliega un servidor con:

  • Docker preinstalado (todas las imágenes de Clore lo incluyen)

  • Puertos expuestos 80 y 443 (añade puertos personalizados en la configuración de la oferta si es necesario)

  • Acceso SSH habilitado

2. Conectar y preparar el servidor

3. Clona Dify y lanza

4. Verifica que todos los servicios estén saludables

5. Accede a la interfaz web

Abre tu navegador y navega a:

En el primer lanzamiento, Dify te redirigirá al asistente de configuración para crear la cuenta de administrador. Completa el asistente y luego inicia sesión.


Configuración

Toda la configuración vive en dify/docker/.env. Aquí están los ajustes más importantes:

Variables de entorno esenciales

Cambiar el puerto expuesto

Por defecto Nginx escucha en el puerto 80. Para cambiarlo:

Volúmenes de datos persistentes

El archivo Compose de Dify monta estos volúmenes por defecto:

Para hacer copia de seguridad:


Aceleración por GPU

La plataforma central de Dify está basada en CPU, pero desbloqueas la inferencia de modelos local integrando Ollama o vLLM como proveedores de modelos — ambos se benefician enormemente de una GPU.

Opción A: sidecar Ollama (lo más sencillo)

Ejecuta Ollama junto a Dify en el mismo servidor Clore:

Luego en la UI de Dify → Ajustes → Proveedores de modelos → Ollama:

  • URL base: http://localhost:11434

  • Selecciona tu modelo y guarda

Para una guía completa de Ollama, ver language-models/ollama.md.

Opción B: sidecar vLLM (alto rendimiento)

Luego en la UI de Dify → Ajustes → Proveedores de modelos → Compatible con OpenAI:

  • URL base: http://localhost:8000/v1

  • Clave API: dummy

  • Nombre del modelo: mistralai/Mistral-7B-Instruct-v0.2

Para la configuración completa de vLLM, ver language-models/vllm.md.

Recomendaciones de memoria GPU para modelos locales

Modelo
VRAM requerida
GPU Clore recomendada

Llama 3 8B (Q4)

6 GB

RTX 3060

Llama 3 8B (FP16)

16 GB

RTX 3090 / 4090

Mistral 7B (Q4)

5 GB

RTX 3060

Llama 3 70B (Q4)

40 GB

A100 40GB

Llama 3 70B (FP16)

140 GB

2× H100


Consejos y mejores prácticas

Optimización de costos en Clore.ai

Habilita HTTPS con Caddy (recomendado para producción)

Escala trabajadores para cargas pesadas

Monitorea el uso de recursos

Ajuste de rendimiento RAG

  • Establecer tamaño de fragmento a 512–1024 tokens para la mayoría de tipos de documentos

  • Habilite recuperación padre-hijo para documentos largos en los ajustes del Dataset

  • Usa búsqueda híbrida (palabra clave + vector) para mejor recall en contenido técnico

  • Indexa documentos durante horas de baja carga para evitar límites de tasa de API


Solución de problemas

Los servicios siguen reiniciándose

"La migración falló" al iniciar

No se puede conectar a Ollama desde Dify

Sin espacio en disco

Errores del almacén vectorial Weaviate

El puerto 80 ya está en uso


Lecturas adicionales

Última actualización

¿Te fue útil?