LocalAI

Clore.ai पर LocalAI के साथ सेल्फ-होस्टेड OpenAI-अनुकूल API

LocalAI के साथ एक self-hosted OpenAI-समर्थित API चलाएँ।

circle-check

सर्वर आवश्यकताएँ

पैरामीटर
न्यूनतम
अनुशंसित

RAM

8GB

16GB+

VRAM

6GB

8GB+

नेटवर्क

200Mbps

500Mbps+

स्टार्टअप समय

5-10 मिनट

-

circle-exclamation
circle-info

LocalAI हल्का है। LLMs (7B+ मॉडल) चलाने के लिए 16GB+ RAM और 8GB+ VRAM वाले सर्वर चुनें।

LocalAI क्या है?

LocalAI प्रदान करता है:

  • ड्रॉप-इन OpenAI API प्रतिस्थापन

  • कई मॉडल फ़ॉर्मैट के लिए समर्थन

  • टेक्स्ट, इमेज, ऑडियो और एम्बेडिंग जनरेशन

  • GPU आवश्यक नहीं (लेकिन GPU से तेज़ी आती है)

समर्थित मॉडल

प्रकार
फ़ॉर्मैट
उदाहरण

LLM

GGUF, GGML

Llama, Mistral, Phi

एम्बेडिंग्स

GGUF

all-MiniLM, BGE

इमेजेस

Diffusers

SD 1.5, SDXL

ऑडियो

Whisper

स्पीच-टू-टेक्स्ट

TTS

Piper, Bark

टेक्स्ट-टू-स्पीच

त्वरित तैनाती

Docker इमेज:

पोर्ट:

किसी कमांड की आवश्यकता नहीं - सर्वर अपने आप शुरू हो जाता है।

जांचें कि यह काम कर रहा है

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर और परीक्षण करें:

circle-exclamation

प्री-बिल्ट मॉडल्स

LocalAI कई मॉडल के साथ बॉक्स से बाहर उपलब्ध आता है:

मॉडल का नाम
प्रकार
विवरण

gpt-4

चैट

सामान्य-उद्देश्य LLM

gpt-4o

चैट

सामान्य-उद्देश्य LLM

gpt-4o-mini

चैट

छोटा, तेज़ LLM

whisper-1

STT

स्पीच-टू-टेक्स्ट

tts-1

TTS

टेक्स्ट-टू-स्पीच

text-embedding-ada-002

एम्बेडिंग्स

384-आयामी वेक्टर

jina-reranker-v1-base-en

रीरैंकिंग

दस्तावेज़ रीरैंकिंग

circle-info

ये मॉडल अतिरिक्त कॉन्फ़िगरेशन के बिना स्टार्टअप के तुरंत बाद काम करते हैं।

अपनी सेवा तक पहुँचना

CLORE.AI पर परिनियोजित होने पर, LocalAI को निम्न के माध्यम से एक्सेस करें http_pub URL:

circle-info

सभी localhost:8080 नीचे दिए गए उदाहरण SSH के माध्यम से कनेक्ट होने पर काम करते हैं। बाहरी पहुंच के लिए, इसे अपने साथ बदलें https://your-http-pub.clorecloud.net/ URL।

Docker पर तैनाती (वैकल्पिक)

मॉडल डाउनलोड करें

मॉडल गैलरी से

LocalAI में एक बिल्ट-इन मॉडल गैलरी है:

Hugging Face से

मॉडल कॉन्फ़िगरेशन

प्रत्येक मॉडल के लिए YAML कॉन्फ़िग बनाएं:

models/llama-3.1-8b.yaml:

API उपयोग

चैट कम्पलीशन्स (OpenAI अनुकूल)

स्ट्रीमिंग

एम्बेडिंग्स

इमेज जनरेशन

cURL उदाहरण

चैट

एम्बेडिंग्स

प्रतिक्रिया:

टेक्स्ट-टू-स्पीच (TTS)

उपलब्ध आवाजें: alloy, echo, fable, onyx, nova, shimmer

स्पीच-टू-टेक्स्ट (STT)

प्रतिक्रिया:

रीरैंकिंग

क्वेरी के लिए प्रासंगिकता के अनुसार दस्तावेज़ों को रीरैंक करें:

प्रतिक्रिया:

पूर्ण API संदर्भ

मानक एंडपॉइंट्स (OpenAI अनुकूल)

एंडपॉइंट
विधि
विवरण

/v1/models

GET

उपलब्ध मॉडल सूचीबद्ध करें

/v1/chat/completions

POST

चैट कम्पलीशन

/v1/completions

POST

टेक्स्ट कम्पलीशन

/v1/embeddings

POST

एम्बेडिंग्स जनरेट करें

/v1/audio/speech

POST

टेक्स्ट-टू-स्पीच

/v1/audio/transcriptions

POST

स्पीच-टू-टेक्स्ट

/v1/images/generations

POST

इमेज जनरेशन

अतिरिक्त एंडपॉइंट्स

एंडपॉइंट
विधि
विवरण

/readyz

GET

तैयारी जाँच

/healthz

GET

हेल्थ जाँच

/version

GET

LocalAI संस्करण प्राप्त करें

/v1/rerank

POST

दस्तावेज़ रीरैंकिंग

/models/available

GET

गैलरी मॉडल सूचीबद्ध करें

/models/apply

POST

गैलरी से मॉडल इंस्टॉल करें

/swagger/

GET

Swagger UI दस्तावेज़ीकरण

/metrics

GET

Prometheus मेट्रिक्स

वर्ज़न प्राप्त करें

प्रतिक्रिया:

Swagger दस्तावेज़ीकरण

इंटरऐक्टिव API डॉक्स के लिए ब्राउज़र में खोलें:

GPU त्वरक

CUDA बैकएंड

पूर्ण GPU ऑफलोड

एकाधिक मॉडल

LocalAI एक ही समय में कई मॉडल सर्व कर सकता है:

API कॉल्स में मॉडल नाम द्वारा प्रत्येक तक पहुँचें।

प्रदर्शन ट्यूनिंग

गति के लिए

मेमोरी के लिए

बेंचमार्क्स

मॉडल
GPU
टोकन/सेकंड

Llama 3.1 8B Q4

RTX 3090

~100

Mistral 7B Q4

RTX 3090

~110

Llama 3.1 8B Q4

RTX 4090

~140

Mixtral 8x7B Q4

A100

~60

बेंचमार्क जनवरी 2026 में अपडेट किए गए।

समस्याओं का निवारण

http_pub URL पर HTTP 502

LocalAI को अन्य सेवाओं की तुलना में शुरू होने में अधिक समय लगता है। प्रतीक्षा करें 5-10 मिनट और पुनः प्रयास करें:

मॉडल लोड नहीं हो रहा

  • YAML में फ़ाइल पथ जाँचें

  • GGUF फ़ॉर्मैट संगतता सत्यापित करें

  • उपलब्ध VRAM जाँचें

धीमी प्रतिक्रियाएँ

  • बढ़ाएँ gpu_layers

  • सक्षम करें use_mmap

  • घटाएँ context_size

आउट ऑफ़ मेमोरी

  • घटाएँ gpu_layers

  • छोटी क्वांटाइज़ेशन का उपयोग करें (Q8 के बजाय Q4)

  • बैच साइज घटाएँ

इमेज जनरेशन समस्याएँ

circle-exclamation

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें:

GPU
VRAM
प्राइस/दिन
उपयुक्त के लिए

RTX 3060

12GB

$0.15–0.30

7B मॉडल्स

RTX 3090

24GB

$0.30–1.00

13B मॉडल्स

RTX 4090

24GB

$0.50–2.00

तेज़ इनफेरेंस

A100

40GB

$1.50–3.00

बड़े मॉडल्स

मूल्य USD/दिन में हैं। दरें प्रदाता के अनुसार बदलती हैं — जांचें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

अगले कदम

Last updated

Was this helpful?