Plateforme de flux de travail Dify.ai

Déployez Dify.ai sur Clore.ai — créez des flux de travail IA prêts pour la production, des pipelines RAG et des applications d'agents avec une interface visuelle à prix de cloud GPU.

Aperçu

Dify.aiarrow-up-right est une plateforme de développement d'applications LLM open-source avec 114K+ étoiles sur GitHub. Il combine un constructeur de flux de travail visuel, un pipeline RAG (récupération augmentée par génération), l'orchestration d'agents, la gestion des modèles et une couche de déploiement d'API en un clic dans une pile auto-hébergeable unique.

Sur Clore.ai vous pouvez exécuter la pile Dify complète — y compris sa base de données Postgres, le cache Redis, le magasin de vecteurs Weaviate, le proxy inverse Nginx, les workers d'API et le front-end web — sur un serveur GPU loué pour aussi peu que 0,20 $–0,35 $/h (RTX 3090/4090). Le GPU est optionnel pour Dify lui-même, mais devient essentiel lorsque vous intégrez l'inférence de modèles locaux via les backends Ollama ou vLLM.

Principales capacités :

  • 🔄 Constructeur de flux visuel — pipelines LLM par glisser-déposer avec branchements, boucles et logique conditionnelle

  • 📚 Pipeline RAG — téléchargez des PDF, des URL, des pages Notion ; découpage + embedding + récupération gérés dans l'interface

  • 🤖 Mode agent — agents ReAct et appel de fonctions avec utilisation d'outils (recherche web, interprète de code, API personnalisées)

  • 🚀 API-first — chaque application génère instantanément un endpoint REST et des extraits SDK

  • 🔌 Plus de 100 intégrations de modèles — OpenAI, Anthropic, Mistral, Cohere, plus des modèles locaux via Ollama/vLLM

  • 🏢 Multi-tenant — équipes, espaces de travail, RBAC, quotas d'utilisation


Exigences

Dify fonctionne comme une pile Docker Compose multi-conteneurs. Le serveur viable minimum pour le développement est une instance CPU-only ; pour la production avec inférence locale de modèles, vous souhaiterez un nœud GPU.

Configuration
GPU
VRAM
RAM système
Disque
Prix Clore.ai

Minimale (clés API uniquement)

Aucun / CPU

8 Go

30 Go

≈0,05 $/h (CPU)

Standard

RTX 3080

10 Go

16 Go

50 Go

≈ 0,15 $/h

Recommandé

RTX 3090 / 4090

24 Go

32 Go

80 Go

0,20–0,35 $/h

Production + LLM local

A100 80 Go

80 Go

64 Go

200 Go

~1,10 $/h

Haut débit

H100 SXM

80 Go

128 Go

500 Go

≈2,50 $/h

Conseil : Si vous utilisez uniquement des fournisseurs d'API cloud (OpenAI, Anthropic, etc.), n'importe quelle instance CPU 2 cœurs avec 8 Go de RAM convient. Un GPU importe seulement lors de l'exécution de modèles locaux via Ollama ou vLLM — voir Accélération GPU ci-dessous.

Remarque sur le disque

Weaviate et les données Postgres croissent rapidement avec les téléchargements de documents. Prévoir au moins 50 Go et monter un stockage persistant via les options de volume de Clore.ai.


Démarrage rapide

1. Louez un serveur Clore.ai

Accédez à clore.aiarrow-up-right, filtrez par le GPU souhaité et déployez un serveur avec :

  • Docker pré-installé (toutes les images Clore l'incluent)

  • Ports exposés 80 et 443 (ajoutez des ports personnalisés dans les paramètres de l'offre si nécessaire)

  • Accès SSH activé

2. Connecter et préparer le serveur

3. Cloner Dify et lancer

4. Vérifier que tous les services sont sains

5. Accéder à l'interface web

Ouvrez votre navigateur et rendez-vous sur :

Au premier lancement, Dify vous redirigera vers l'assistant de configuration pour créer le compte administrateur. Complétez l'assistant, puis connectez-vous.


Configuration

Toute la configuration se trouve dans dify/docker/.env. Voici les paramètres les plus importants :

Variables d'environnement essentielles

Changer le port exposé

Par défaut Nginx écoute sur le port 80. Pour le changer :

Volumes de données persistants

Le fichier Compose de Dify monte ces volumes par défaut :

Pour sauvegarder :


Accélération GPU

La plateforme principale de Dify est basée sur le CPU, mais vous débloquez l'inférence de modèles locaux en intégrant composant Ollama ou vLLM comme fournisseurs de modèles — les deux bénéficient énormément d'un GPU.

Option A : sidecar Ollama (le plus simple)

Exécutez Ollama aux côtés de Dify sur le même serveur Clore :

Puis dans l'UI Dify → Paramètres → Fournisseurs de modèles → Ollama:

  • URL de base : http://localhost:11434

  • Sélectionnez votre modèle et enregistrez

Pour un guide complet sur Ollama, voir language-models/ollama.md.

Option B : sidecar vLLM (haut débit)

Puis dans l'UI Dify → Paramètres → Fournisseurs de modèles → Compatible OpenAI:

  • URL de base : http://localhost:8000/v1

  • Clé API : dummy

  • Nom du modèle : mistralai/Mistral-7B-Instruct-v0.2

Pour l'installation complète de vLLM, voir language-models/vllm.md.

Recommandations de mémoire GPU pour les modèles locaux

Modèle
VRAM requise
GPU Clore recommandé

Llama 3 8B (Q4)

6 Go

RTX 3060

Llama 3 8B (FP16)

16 Go

RTX 3090 / 4090

Mistral 7B (Q4)

5 Go

RTX 3060

Llama 3 70B (Q4)

40 Go

A100 40GB

Llama 3 70B (FP16)

140 Go

2× H100


Conseils et bonnes pratiques

Optimisation des coûts sur Clore.ai

Activez HTTPS avec Caddy (recommandé pour la production)

Scalerez les workers pour des charges lourdes

Surveillez l'utilisation des ressources

Optimisation des performances RAG

  • Définir taille des chunks à 512–1024 tokens pour la plupart des types de documents

  • Activez récupération parent-enfant pour les documents longs dans les paramètres du Dataset

  • Utilisez recherche hybride (mot-clé + vecteur) pour une meilleure rappel sur le contenu technique

  • Indexez les documents pendant les heures creuses pour éviter les limites de taux API


Dépannage

Les services redémarrent en boucle

"Échec de la migration" au démarrage

Impossible de se connecter à Ollama depuis Dify

Espace disque insuffisant

Erreurs du magasin de vecteurs Weaviate

Le port 80 est déjà utilisé


Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?