Asistente Offline Jan.ai

Despliega Jan.ai Server en Clore.ai — un servidor LLM totalmente offline compatible con OpenAI con hub de modelos, gestión de conversaciones e inferencia acelerada por GPU impulsada por el motor Cortex.

Resumen

Jan.aiarrow-up-right es una alternativa de ChatGPT de código abierto y centrada en la privacidad con más de 40.000 estrellas en GitHub. Aunque Jan es más conocido como una aplicación de escritorio, su componente de servidor — Jan Server — expone una API REST totalmente compatible con OpenAI que puede desplegarse en infraestructura GPU en la nube como Clore.ai.

Jan Server está construido sobre el Cortex.cpparrow-up-right motor de inferencia, un runtime de alto rendimiento que admite llama.cpp, TensorRT-LLM, y backends ONNX. En Clore.ai puedes alquilar un servidor GPU por tan solo $0.20/hr, ejecutar Jan Server con Docker Compose, cargar cualquier modelo GGUF o GPTQ y servirlo a través de una API compatible con OpenAI — todo sin que tus datos salgan de la máquina.

Características clave:

  • 🔒 100% sin conexión — los datos nunca abandonan tu servidor

  • 🤖 API compatible con OpenAI (/v1/chat/completions, /v1/models, etc.)

  • 📦 Hub de modelos con descargas de modelos con un solo comando

  • 🚀 Aceleración por GPU mediante CUDA (backends llama.cpp + TensorRT-LLM)

  • 💬 Gestión de conversaciones integrada e historial de hilos

  • 🔌 Reemplazo directo para OpenAI en aplicaciones existentes


Requisitos

Requisitos de hardware

Nivel
GPU
VRAM
RAM
Almacenamiento
Precio de Clore.ai

Mínimo

RTX 3060 12GB

12 GB

16 GB

50 GB SSD

~$0.10/h

Recomendado

RTX 3090

24 GB

32 GB

100 GB SSD

~$0.20/h

Gama alta

RTX 4090

24 GB

64 GB

200 GB SSD

~$0.35/h

Modelos grandes

A100 80GB

80 GB

128 GB

500 GB SSD

~$1.10/h

Referencia de VRAM del modelo

Modelo
VRAM requerida
GPU recomendada

Llama 3.1 8B (Q4)

~5 GB

RTX 3060

Llama 3.1 8B (FP16)

~16 GB

RTX 3090

Llama 3.3 70B (Q4)

~40 GB

A100 40GB

Llama 3.1 405B (Q4)

~220 GB

4× A100 80GB

Mistral 7B (Q4)

~4 GB

RTX 3060

Qwen2.5 72B (Q4)

~45 GB

A100 80GB

Requisitos de software

  • Cuenta de Clore.ai con cartera financiada

  • Conocimientos básicos de Docker

  • (Opcional) Cliente OpenSSH para reenvío de puertos


Inicio rápido

Paso 1 — Alquila un servidor GPU en Clore.ai

  1. Navega a clore.aiarrow-up-right y accede

  2. Filtrar servidores: Tipo de GPU → RTX 3090 o superior, Docker → habilitado

  3. Selecciona un servidor y elige la Docker opción de despliegue

  4. Usa la nvidia/cuda:12.1.0-devel-ubuntu22.04 imagen base oficial o cualquier imagen CUDA

  5. Puertos abiertos: 1337 (API de Jan Server), 39281 (API de Cortex), 22 (SSH)

Paso 2 — Conéctate a tu servidor

Paso 3 — Instala Docker Compose (si no está presente)

Paso 4 — Despliega Jan Server con Docker Compose

Si el archivo compose upstream no está disponible o quieres control total, créalo manualmente:

Paso 5 — Verifica que el servidor está en ejecución

Paso 6 — Descarga tu primer modelo

Paso 7 — Inicia el modelo y chatea


Configuración

Variables de entorno

Variable
Valor por defecto
Descripción

JAN_API_HOST

0.0.0.0

Host al que enlazar el servidor API

JAN_API_PORT

1337

Puerto de la API de Jan Server

CORTEX_API_PORT

39281

Puerto interno del motor Cortex

CUDA_VISIBLE_DEVICES

all

Qué GPUs exponer (índices separados por comas)

JAN_DATA_FOLDER

/root/jan

Ruta a la carpeta de datos de Jan

CORTEX_MODELS_PATH

/root/cortex/models

Ruta de almacenamiento de modelos

Configuración multi-GPU

Para servidores con múltiples GPUs (p. ej., 2× RTX 3090 en Clore.ai):

O para dedicar GPUs específicas:

Configuración personalizada del modelo

Asegurar la API con un token

Jan Server no incluye autenticación por defecto. Usa Nginx como proxy inverso:


Aceleración por GPU

Verificando la aceleración CUDA

El motor Cortex de Jan Server detecta CUDA automáticamente. Verifica que esté usando la GPU:

Cambio de backends de inferencia

Cortex admite múltiples backends:

Ajuste de la ventana de contexto y el tamaño de lote

Parámetro
Descripción
Recomendación

ngl

Capas de GPU (más alto = más uso de GPU)

Establecer en 99 para maximizar la GPU

ctx_len

Tamaño de la ventana de contexto

4096–32768 dependiendo de la VRAM

n_batch

Tamaño de lote para el procesamiento de prompts

512 para RTX 3090, 256 para GPUs más pequeñas

n_parallel

Slots de solicitudes concurrentes

4–8 para uso del servidor API


Consejos y mejores prácticas

🎯 Selección de modelos para presupuestos en Clore.ai

💾 Almacenamiento persistente de modelos

Dado que las instancias de Clore.ai son efímeras, considera montar almacenamiento externo:

🔗 Usando Jan Server como reemplazo de OpenAI

📊 Monitorización del uso de recursos


Solución de problemas

El contenedor no arranca — GPU no encontrada

Descarga del modelo atascada o fallida

Sin VRAM (CUDA out of memory)

No se puede conectar a la API desde fuera del contenedor

Inferencia lenta (caída a CPU)


Lecturas adicionales

💡 Consejo de coste: Una RTX 3090 en Clore.ai (~$0.20/hr) puede ejecutar Llama 3.1 8B a ~50 tokens/segundo — suficiente para uso personal o APIs de bajo tráfico. Para cargas de producción, considera vLLM (ver guía de vLLM) en una A100.

Última actualización

¿Te fue útil?