Assistant hors ligne Jan.ai

Déployez Jan.ai Server sur Clore.ai — un serveur LLM entièrement hors ligne et compatible OpenAI avec hub de modèles, gestion des conversations et inférence accélérée par GPU propulsée par le moteur Cortex.

Aperçu

Jan.aiarrow-up-right est une alternative open-source à ChatGPT axée sur la confidentialité, avec plus de 40 000 étoiles sur GitHub. Bien que Jan soit surtout connu comme application de bureau, son composant serveur — Jan Server — expose une API REST entièrement compatible OpenAI qui peut être déployée sur une infrastructure GPU cloud comme Clore.ai.

Jan Server est construit sur le Cortex.cpparrow-up-right moteur d'inférence, un runtime haute performance qui prend en charge llama.cpp, TensorRT-LLM, et les backends ONNX. Sur Clore.ai, vous pouvez louer un serveur GPU pour aussi peu que $0.20/hr, exécuter Jan Server avec Docker Compose, charger n'importe quel modèle GGUF ou GPTQ, et le servir via une API compatible OpenAI — le tout sans que vos données quittent la machine.

Fonctionnalités clés :

  • 🔒 100 % hors ligne — aucune donnée ne quitte jamais votre serveur

  • 🤖 API compatible OpenAI (/v1/chat/completions, /v1/models, etc.)

  • 📦 Hub de modèles avec téléchargement des modèles en une commande

  • 🚀 Accélération GPU via CUDA (backends llama.cpp + TensorRT-LLM)

  • 💬 Gestion de conversation intégrée et historique des threads

  • 🔌 Remplacement plug-and-play pour OpenAI dans les applications existantes


Exigences

Exigences matérielles

Niveau
GPU
VRAM
RAM
Stockage
Prix Clore.ai

Minimum

RTX 3060 12GB

12 Go

16 Go

50 Go SSD

~0,10 $/h

Recommandé

RTX 3090

24 Go

32 Go

100 Go SSD

~0,20 $/h

Haut de gamme

RTX 4090

24 Go

64 Go

200 Go SSD

~0,35 $/h

Grands modèles

A100 80GB

80 Go

128 Go

500 Go SSD

~1,10 $/h

Référence VRAM des modèles

Modèle
VRAM requise
GPU recommandé

Llama 3.1 8B (Q4)

~5 Go

RTX 3060

Llama 3.1 8B (FP16)

~16 Go

RTX 3090

Llama 3.3 70B (Q4)

≈40 Go

A100 40GB

Llama 3.1 405B (Q4)

~220 Go

4× A100 80GB

Mistral 7B (Q4)

~4 Go

RTX 3060

Qwen2.5 72B (Q4)

~45 Go

A100 80GB

Prérequis logiciels

  • Compte Clore.ai avec portefeuille approvisionné

  • Connaissances de base en Docker

  • (Optionnel) client OpenSSH pour le transfert de port


Démarrage rapide

Étape 1 — Louer un serveur GPU sur Clore.ai

  1. Accédez à clore.aiarrow-up-right et connectez-vous

  2. Filtrer les serveurs : Type de GPU → RTX 3090 ou mieux, Docker → activé

  3. Sélectionnez un serveur et choisissez l' Docker option de déploiement

  4. Utilisez l' nvidia/cuda:12.1.0-devel-ubuntu22.04 image de base officielle ou toute image CUDA

  5. Ports ouverts : 1337 (API Jan Server), 39281 (API Cortex), 22 (SSH)

Étape 2 — Connectez-vous à votre serveur

Étape 3 — Installez Docker Compose (si absent)

Étape 4 — Déployer Jan Server avec Docker Compose

Si le fichier compose upstream est indisponible ou si vous voulez le contrôle total, créez-le manuellement :

Étape 5 — Vérifier que le serveur fonctionne

Étape 6 — Récupérer votre premier modèle

Étape 7 — Démarrer le modèle et chatter


Configuration

Variables d'environnement

Variable
Par défaut
Description

JAN_API_HOST

0.0.0.0

Hôte auquel l'API doit se lier

JAN_API_PORT

1337

Port de l'API Jan Server

CORTEX_API_PORT

39281

Port interne du moteur Cortex

CUDA_VISIBLE_DEVICES

all

Quels GPU exposer (indices séparés par des virgules)

JAN_DATA_FOLDER

/root/jan

Chemin vers le dossier de données de Jan

CORTEX_MODELS_PATH

/root/cortex/models

Chemin vers le stockage des modèles

Configuration multi-GPU

Pour les serveurs avec plusieurs GPU (par ex., 2× RTX 3090 sur Clore.ai) :

Ou pour dédier des GPU spécifiques :

Configuration personnalisée du modèle

Sécurisation de l'API avec un token

Jan Server n'inclut pas d'authentification par défaut. Utilisez Nginx comme reverse proxy :


Accélération GPU

Vérification de l'accélération CUDA

Le moteur Cortex de Jan Server détecte automatiquement CUDA. Vérifiez qu'il utilise le GPU :

Changement de backend d'inférence

Cortex prend en charge plusieurs backends :

Ajustement de la fenêtre de contexte et de la taille de lot

Paramètre
Description
Recommandation

ngl

Couches GPU (plus élevé = plus d'utilisation GPU)

Définir sur 99 pour saturer le GPU

ctx_len

Taille de la fenêtre de contexte

4096–32768 selon la VRAM

n_batch

Taille de lot pour le traitement des prompts

512 pour RTX 3090, 256 pour les plus petits

n_parallel

Emplacements de requêtes concurrentes

4–8 pour une utilisation en serveur API


Conseils et bonnes pratiques

🎯 Sélection de modèle en fonction des budgets Clore.ai

💾 Stockage persistant des modèles

Étant donné que les instances Clore.ai sont éphémères, envisagez de monter un stockage externe :

🔗 Utiliser Jan Server comme plug-in OpenAI

📊 Surveillance de l'utilisation des ressources


Dépannage

Le conteneur ne démarre pas — GPU introuvable

Téléchargement du modèle bloqué ou échoue

Plus de VRAM (CUDA out of memory)

Impossible de se connecter à l'API depuis l'extérieur du conteneur

Inférence lente (repli sur CPU)


Lectures complémentaires

💡 Conseil sur les coûts : Un RTX 3090 sur Clore.ai (~0,20 $/h) peut exécuter Llama 3.1 8B à ~50 tokens/seconde — suffisant pour un usage personnel ou des API à faible trafic. Pour des charges de production, envisagez vLLM (voir guide vLLM) sur une A100.

Mis à jour

Ce contenu vous a-t-il été utile ?