Ollama
Clore.ai GPUs पर Ollama के साथ लोकली LLMs चलाएँ
सर्वर आवश्यकताएँ
पैरामीटर
न्यूनतम
अनुशंसित
क्यों Ollama?
CLORE.AI पर त्वरित डिप्लॉय
जांचें कि यह काम कर रहा है
अपनी सेवा तक पहुँचना
इंस्टॉलेशन
Docker का उपयोग (अनुशंसित)
मैनुअल इंस्टॉलेशन
मॉडल चलाना
पुल और रन
लोकप्रिय मॉडल
मॉडल
आकार
उपयोग का मामला
मॉडल वेरिएंट
v0.6+ में नया
संरचित आउटपुट (JSON स्कीमा)
OpenAI-संगत एंबेडिंग एंडपॉइंट (/api/embed)
/api/embed)समवर्ती मॉडल लोडिंग
API उपयोग
चैट पूर्णता
OpenAI-संगत एंडपॉइंट
स्ट्रीमिंग
एम्बेडिंग्स
टेक्स्ट जनरेशन (नॉन-चैट)
पूर्ण API संदर्भ
मॉडल प्रबंधन
एंडपॉइंट
विधि
विवरण
मॉडल सूचीबद्ध करें
मॉडल विवरण दिखाएँ
API के माध्यम से मॉडल पुल करें
मॉडल हटाएँ
चल रहे मॉडलों की सूची
वर्ज़न प्राप्त करें
इनफेरेंस एंडपॉइंट्स
एंडपॉइंट
विधि
विवरण
कस्टम मॉडल निर्माण
GPU कॉन्फ़िगरेशन
GPU उपयोग की जांच करें
मल्टी-GPU
मेमोरी प्रबंधन
कस्टम मॉडल (Modelfile)
सेवा के रूप में चलाना
Systemd
प्रदर्शन सुझाव
बेंचमार्क्स
जनरेशन स्पीड (टोकन/सेकंड)
मॉडल
RTX 3060
RTX 3090
RTX 4090
A100 40GB
पहले टोकन तक का समय (ms)
मॉडल
RTX 3090
RTX 4090
A100
कॉन्टेक्स्ट लंबाई बनाम VRAM (Q4)
मॉडल
2K संदर्भ
4K संदर्भ
8K संदर्भ
16K संदर्भ
GPU आवश्यकताएँ
मॉडल
Q4 VRAM
Q8 VRAM
लागत अनुमान
GPU
VRAM
प्राइस/दिन
उपयुक्त के लिए
समस्याओं का निवारण
मॉडल लोड नहीं होगा
धीमी जनरेशन
कनेक्शन रिफ्यूज़्ड
http_pub URL पर HTTP 502
अगले कदम
Last updated
Was this helpful?