Jan.ai ऑफ़लाइन असिस्टेंट

Clore.ai पर Jan.ai सर्वर तैनात करें — मॉडल हब, बातचीत प्रबंधन और Cortex इंजन द्वारा संचालित GPU-त्वरित इनफरेंस के साथ पूर्णत: ऑफ़लाइन, OpenAI-अनुकूल LLM सर्वर।

अवलोकन

Jan.aiarrow-up-right एक ओपन-सोर्स, गोपनीयता-प्रथम ChatGPT विकल्प है जिसे GitHub पर 40,000 से अधिक स्टार मिले हैं। जबकि Jan सबसे ज्यादा एक डेस्कटॉप एप्लिकेशन के रूप में जाना जाता है, इसका सर्वर घटक — Jan सर्वर — एक पूरी तरह OpenAI-संगत REST API उजागर करता है जिसे Clore.ai जैसे क्लाउड GPU इन्फ्रास्ट्रक्चर पर तैनात किया जा सकता है।

Jan Server का निर्माण किया गया है Cortex.cpparrow-up-right इनफरेंस इंजन पर, एक उच्च-प्रदर्शन रनटाइम जो का समर्थन करता है llama.cpp, TensorRT-LLMऔर ONNX बैकएंड्स। Clore.ai पर आप केवल $0.20/hrमें एक GPU सर्वर किराये पर ले सकते हैं, Jan Server को Docker Compose से चला सकते हैं, कोई भी GGUF या GPTQ मॉडल लोड कर सकते हैं, और इसे OpenAI-संगत API के माध्यम से सर्व कर सकते हैं — और सब कुछ बिना आपके डेटा के मशीन छोड़ने के।

मुख्य विशेषताएँ:

  • 🔒 100% ऑफलाइन — आपका कोई डेटा कभी भी आपके सर्वर से बाहर नहीं जाता

  • 🤖 OpenAI-संगत API (/v1/chat/completions, /v1/modelsआदि.)

  • 📦 एक-कमांड मॉडल डाउनलोड के साथ मॉडल हब

  • 🚀 CUDA के माध्यम से GPU त्वरण (llama.cpp + TensorRT-LLM बैकएंड्स)

  • 💬 बिल्ट-इन बातचीत प्रबंधन और थ्रेड हिस्ट्री

  • 🔌 मौजूदा अनुप्रयोगों में OpenAI के लिए ड्रॉप-इन प्रतिस्थापन


आवश्यकताएँ

हार्डवेयर आवश्यकताएँ

टियर
GPU
VRAM
RAM
स्टोरेज
Clore.ai मूल्य

न्यूनतम

RTX 3060 12GB

12 GB

16 GB

50 GB SSD

~$0.10/घं

अनुशंसित

RTX 3090

24 GB

32 GB

100 GB SSD

~$0.20/घंटा

हाई-एंड

RTX 4090

24 GB

64 GB

200 GB SSD

~$0.35/घंटा

बड़े मॉडल

A100 80GB

80 GB

128 GB

500 GB SSD

~$1.10/घंटा

मॉडल VRAM संदर्भ

मॉडल
आवश्यक VRAM
अनुशंसित GPU

Llama 3.1 8B (Q4)

~5 GB

RTX 3060

Llama 3.1 8B (FP16)

~16 GB

RTX 3090

Llama 3.3 70B (Q4)

~40 GB

A100 40GB

Llama 3.1 405B (Q4)

~220 GB

4× A100 80GB

Mistral 7B (Q4)

~4 GB

RTX 3060

Qwen2.5 72B (Q4)

~45 GB

A100 80GB

सॉफ्टवेयर अनिवार्यताएँ

  • Clore.ai खाता जिसमें फंडेड वॉलेट हो

  • बुनियादी Docker ज्ञान

  • (वैकल्पिक) पोर्ट फॉरवर्डिंग के लिए OpenSSH क्लाइंट


त्वरित प्रारम्भ

चरण 1 — Clore.ai पर एक GPU सर्वर किराये पर लें

  1. ब्राउज़ करें clore.aiarrow-up-right और लॉग इन करें

  2. सर्वरों को फ़िल्टर करें: GPU प्रकार → RTX 3090 या बेहतर, Docker → सक्षम

  3. एक सर्वर चुनें और Docker डिप्लॉयमेंट विकल्प चुनें

  4. आधिकारिक का उपयोग करें nvidia/cuda:12.1.0-devel-ubuntu22.04 बेस इमेज या कोई भी CUDA इमेज

  5. खुले पोर्ट्स: 1337 (Jan Server API), 39281 (Cortex API), 22 (SSH)

चरण 2 — अपने सर्वर से कनेक्ट करें

चरण 3 — Docker Compose इंस्टॉल करें (यदि मौजूद नहीं है)

चरण 4 — Docker Compose के साथ Jan Server तैनात करें

यदि अपस्ट्रीम compose फ़ाइल उपलब्ध नहीं है या आप पूर्ण नियंत्रण चाहते हैं, तो इसे मैन्युअल रूप से बनाएँ:

चरण 5 — सत्यापित करें कि सर्वर चल रहा है

चरण 6 — अपना पहला मॉडल पुल करें

चरण 7 — मॉडल शुरू करें और चैट करें


कॉन्फ़िगरेशन

पर्यावरण चर

वैरिएबल
डिफ़ॉल्ट
विवरण

JAN_API_HOST

0.0.0.0

API सर्वर को बाइंड करने के लिए होस्ट

JAN_API_PORT

1337

Jan Server API पोर्ट

CORTEX_API_PORT

39281

आंतरिक Cortex इंजन पोर्ट

CUDA_VISIBLE_DEVICES

all

कौन से GPUs एक्सपोज़ करने हैं (कॉमा से अलग किए गए इंडिसेस)

JAN_DATA_FOLDER

/root/jan

Jan डेटा फ़ोल्डर का पथ

CORTEX_MODELS_PATH

/root/cortex/models

मॉडल स्टोरेज का पथ

मल्टी-GPU कॉन्फ़िगरेशन

एकाधिक GPU वाले सर्वरों के लिए (उदा., Clore.ai पर 2× RTX 3090):

या विशिष्ट GPUs समर्पित करने के लिए:

कस्टम मॉडल कॉन्फ़िगरेशन

API को टोकन से सुरक्षित करना

Jan Server में डिफ़ॉल्ट रूप से प्रमाणीकरण शामिल नहीं है। रिवर्स प्रॉक्सी के रूप में Nginx का उपयोग करें:


GPU त्वरक

CUDA त्वरण सत्यापन

Jan Server का Cortex इंजन स्वचालित रूप से CUDA का पता लगाता है। सत्यापित करें कि यह GPU का उपयोग कर रहा है:

इन्फरेंस बैकएंड्स बदलना

Cortex कई बैकएंड्स का समर्थन करता है:

कंटेक्स्ट विंडो और बैच साइज ट्यूनिंग

पैरामीटर
विवरण
अनुशंसा

ngl

GPU परतें (ज़्यादा = अधिक GPU उपयोग)

सेट करें 99 GPU को अधिकतम करने के लिए

ctx_len

कंटेक्स्ट विंडो आकार

VRAM के अनुसार 4096–32768

n_batch

प्रॉम्प्ट प्रोसेसिंग के लिए बैच साइज

RTX 3090 के लिए 512, छोटे के लिए 256

n_parallel

समानांतर अनुरोध स्लॉट

API सर्वर उपयोग के लिए 4–8


टिप्स और सर्वोत्तम प्रथाएँ

🎯 Clore.ai बजट के लिए मॉडल चयन

💾 स्थायी मॉडल स्टोरेज

चूंकि Clore.ai इंस्टेंस क्षणभंगुर होते हैं, बाहरी स्टोरेज माउंट करने पर विचार करें:

🔗 Jan Server का उपयोग OpenAI ड्रॉप-इन के रूप में

📊 संसाधन उपयोग की निगरानी


समस्याओं का निवारण

कंटेनर शुरू नहीं होता — GPU नहीं मिला

मॉडल डाउनलोड फंस गया या विफल हो गया

VRAM समाप्त (CUDA आउट ऑफ मेमोरी)

कंटेनर के बाहर से API से कनेक्ट नहीं कर पाना

धीमी इन्फरेंस (CPU फॉलबैक)


अधिक पढ़ने के लिए

💡 खर्च सुझाव: Clore.ai पर एक RTX 3090 (~$0.20/hr) Llama 3.1 8B को चल सकता है ~50 टोकन/सेकंड — व्यक्तिगत उपयोग या कम-ट्रैफ़िक APIs के लिए पर्याप्त। प्रोडक्शन वर्कलोड के लिए, vLLM पर विचार करें (देखें vLLM गाइड) एक A100 पर.

Last updated

Was this helpful?