Оффлайн-ассистент Jan.ai

Разверните сервер Jan.ai на Clore.ai — полностью оффлайн-совместимый с OpenAI сервер LLM с хабом моделей, управлением разговоров и ускорённым на GPU инференсом на движке Cortex.

Обзор

Jan.aiarrow-up-right является проектом с открытым исходным кодом и приоритетом конфиденциальности, альтернативой ChatGPT с более чем 40 000 звёзд на GitHub. Хотя Jan наиболее известен как десктопное приложение, его серверный компонент — Jan Server — предоставляет полностью совместимый с OpenAI REST API, который можно развернуть на облачной GPU-инфраструктуре, такой как Clore.ai.

Jan Server построен на Cortex.cpparrow-up-right движке вывода, высокопроизводительном рантайме, который поддерживает llama.cpp, TensorRT-LLM, и бэкенды ONNX. На Clore.ai вы можете арендовать GPU-сервер всего за $0.20/hr, запустить Jan Server с помощью Docker Compose, загрузить любую модель GGUF или GPTQ и обслуживать её через API, совместимый с OpenAI — и всё это без выхода ваших данных за пределы машины.

Ключевые особенности:

  • 🔒 100% офлайн — данные никогда не покидают ваш сервер

  • 🤖 API, совместимый с OpenAI (/v1/chat/completions, /v1/models, и т.д.)

  • 📦 Хаб моделей с загрузкой моделей в одну команду

  • 🚀 Ускорение на GPU через CUDA (бэкенды llama.cpp + TensorRT-LLM)

  • 💬 Встроенное управление диалогами и история веток

  • 🔌 Прямой заменитель OpenAI в существующих приложениях


Требования

Требования к аппаратному обеспечению

Тариф
GPU
VRAM
ОЗУ
Хранилище
Clore.ai Цена

Минимум

RTX 3060 12GB

12 ГБ

16 ГБ

50 ГБ SSD

~$0.10/час

Рекомендуется

RTX 3090

24 ГБ

32 ГБ

100 ГБ SSD

≈ $0.20/ч

Высокопроизводительный

RTX 4090

24 ГБ

64 ГБ

200 ГБ SSD

≈ $0.35/ч

Большие модели

A100 80GB

80 ГБ

128 ГБ

500 ГБ SSD

≈ $1.10/ч

Справка по VRAM моделей

Модель
Требуемая VRAM
Рекомендуемый GPU

Llama 3.1 8B (Q4)

~5 ГБ

RTX 3060

Llama 3.1 8B (FP16)

~16 ГБ

RTX 3090

Llama 3.3 70B (Q4)

≈40 ГБ

A100 40GB

Llama 3.1 405B (Q4)

~220 ГБ

4× A100 80GB

Mistral 7B (Q4)

~4 ГБ

RTX 3060

Qwen2.5 72B (Q4)

~45 ГБ

A100 80GB

Программные предпосылки

  • Аккаунт Clore.ai с пополненным кошельком

  • Базовые знания Docker

  • (Необязательно) OpenSSH клиент для проброса портов


Быстрый старт

Шаг 1 — Арендуйте сервер с GPU на Clore.ai

  1. Перейдите по адресу clore.aiarrow-up-right и выполните вход

  2. Фильтровать серверы: Тип GPU → RTX 3090 или лучше, Docker → включено

  3. Выберите сервер и выберите Docker вариант развертывания

  4. Используйте официальный nvidia/cuda:12.1.0-devel-ubuntu22.04 базовый образ или любой CUDA-образ

  5. Открытые порты: 1337 (Jan Server API), 39281 (Cortex API), 22 (SSH)

Шаг 2 — Подключитесь к вашему серверу

Шаг 3 — Установите Docker Compose (если отсутствует)

Шаг 4 — Разверните Jan Server с помощью Docker Compose

Если upstream compose-файл недоступен или вы хотите полный контроль, создайте его вручную:

Шаг 5 — Проверьте, что сервер работает

Шаг 6 — Загрузите вашу первую модель

Шаг 7 — Запустите модель и начните чат


Конфигурация

Переменные окружения

Переменная
По умолчанию
Описание

JAN_API_HOST

0.0.0.0

Хост для привязки API сервера

JAN_API_PORT

1337

Порт API Jan Server

CORTEX_API_PORT

39281

Внутренний порт движка Cortex

CUDA_VISIBLE_DEVICES

all

Какие GPU отображать (индексы, разделённые запятыми)

JAN_DATA_FOLDER

/root/jan

Путь к папке данных Jan

CORTEX_MODELS_PATH

/root/cortex/models

Путь к хранилищу моделей

Конфигурация с несколькими GPU

Для серверов с несколькими GPU (например, 2× RTX 3090 на Clore.ai):

Или чтобы выделить конкретные GPU:

Пользовательская конфигурация модели

Защита API с помощью токена

Jan Server по умолчанию не включает аутентификацию. Используйте Nginx как обратный прокси:


Ускорение с помощью GPU

Проверка ускорения CUDA

Движок Cortex в Jan Server автоматически определяет CUDA. Проверьте, что используется GPU:

Переключение бэкендов вывода

Cortex поддерживает несколько бэкендов:

Настройка окна контекста и размера батча

Параметр
Описание
Рекомендация

ngl

Слои на GPU (чем больше = тем больше загрузка GPU)

Установите в 99 чтобы максимально загрузить GPU

ctx_len

Размер окна контекста

4096–32768 в зависимости от VRAM

n_batch

Размер батча для обработки подсказок

512 для RTX 3090, 256 для меньших

n_parallel

Параллельные слоты для запросов

4–8 для использования в API сервере


Подсказки и лучшие практики

🎯 Выбор моделей для бюджетов Clore.ai

💾 Постоянное хранилище моделей

Поскольку инстансы Clore.ai эфемерны, рассмотрите возможность монтирования внешнего хранилища:

🔗 Использование Jan Server как замены OpenAI

📊 Мониторинг использования ресурсов


Устранение неполадок

Контейнер не запускается — GPU не найден

Загрузка модели зависла или не удалась

Закончилась VRAM (CUDA out of memory)

Не удаётся подключиться к API из вне контейнера

Медленный вывод (переход на CPU)


Дополнительное чтение

💡 Совет по стоимости: RTX 3090 на Clore.ai (~$0.20/hr) может запускать Llama 3.1 8B с ~50 токенов/сек — достаточно для личного использования или API с низкой нагрузкой. Для производственных нагрузок рассмотрите vLLM (см. руководство по vLLM) на A100.

Последнее обновление

Это было полезно?