Aphrodite Engine

Clore.ai पर पारंपरिक और आधुनिक GPU पर LLM इनफेरेंस के लिए Aphrodite Engine चलाएँ

Aphrodite Engine एक अनुकूलित LLM इनफ़रेंस सर्वर है जो vLLM के ऊपर बनाया गया है, विशेष रूप से क्रिएटिव राइटिंग और रोलप्ले समुदाय के लिए तैयार किया गया है। यह Pascal (GTX 1000 सीरीज़) से शुरू होकर विस्तृत GPU रेंज का समर्थन करता है, जिससे यह पुराने या बजट CLORE.AI GPU सर्वरों पर भाषा मॉडल चलाने के लिए आदर्श विकल्प बन जाता है जहाँ अन्य फ्रेमवर्क विफल हो जाते हैं। Aphrodite Kobold-संगत APIs, Mirostat सैंपलिंग, और उन्नत टेक्स्ट सैंपलिंग एल्गोरिदम जोड़ता है जो मुख्यधारा के सर्विंग फ्रेमवर्क में नहीं मिलते।

circle-check

सर्वर आवश्यकताएँ

पैरामीटर
न्यूनतम
अनुशंसित

RAM

16 GB

32 GB+

VRAM

6 GB

16 GB+

डिस्क

40 GB

150 GB+

GPU

NVIDIA Pascal+ (GTX 1060+)

RTX 3090, A100

circle-info

Aphrodite Engine उन कुछ LLM सर्वरों में से एक है जो Pascal-जनरेशन GPU (GTX 10xx सीरीज़) का समर्थन करते हैं। यह पुराने GPU वाले बजट सर्वर्स पर CLORE.AI के लिए इसे आदर्श बनाता है जिनकी किराये की कीमतें कम होती हैं।

CLORE.AI पर त्वरित तैनाती

Docker इमेज: alpindale/aphrodite-engine:latest

पोर्ट्स: 22/tcp, 2242/http

पर्यावरण चर:

चर
उदाहरण
विवरण

HF_TOKEN

hf_xxx...

गेटेड मॉडलों के लिए HuggingFace टोकन

APHRODITE_MODEL

mistralai/Mistral-7B-Instruct-v0.3

लोड करने के लिए मॉडल

चरण-दर-चरण सेटअप

1. CLORE.AI पर एक GPU सर्वर किराए पर लें

Aphrodite का व्यापक GPU समर्थन आपको पर बजट-फ्रेंडली सर्वर्स लेने देता है CLORE.AI मार्केटप्लेसarrow-up-right:

  • Pascal (GTX 1060–1080 Ti): 6–11 GB VRAM — क्वांटाइज़ेशन के साथ छोटे 3B-7B मॉडल चलाएँ

  • Turing (RTX 2000 सीरीज़): 8–24 GB VRAM — 7B-13B मॉडल, बेहतर प्रदर्शन

  • Ampere (RTX 3000/A100): 24–80 GB VRAM — 30B-70B मॉडल, पूर्ण गति

  • Ada (RTX 4000 सीरीज़): 16–24 GB VRAM — सर्वोत्तम प्रदर्शन/लागत अनुपात

2. SSH के जरिए कनेक्ट करें

3. Aphrodite Engine इमेज खींचें

4. Aphrodite Engine लॉन्च करें

7B मॉडल के साथ बुनियादी लॉन्च:

HuggingFace टोकन के साथ (Llama 3):

GPTQ क्वांटाइज़ेशन के साथ (सीमित VRAM के लिए):

AWQ क्वांटाइज़ेशन के साथ:

GGUF मॉडल चला रहे हैं (Aphrodite नैटिवली GGUF का समर्थन करता है):

5. सर्वर सत्यापित करें

6. CLORE.AI HTTP प्रॉक्सी के माध्यम से पहुंच

CLORE.AI ऑर्डर पैनल एक प्रदान करता है http_pub पोर्ट 2242 के लिए URL। इसे अपने क्लाइंट अनुप्रयोगों में उपयोग करें:


उपयोग के उदाहरण

उदाहरण 1: OpenAI-संगत चैट

उदाहरण 2: Mirostat के साथ उन्नत सैंपलिंग

Aphrodite लंबी-फ़ॉर्म पाठ के लिए अधिक सुसंगतता हेतु Mirostat सैंपलिंग का समर्थन करता है:

उदाहरण 3: Kobold-संगत API

Aphrodite में KoboldAI-आधारित फ्रंटएंड के साथ उपयोग के लिए Kobold-संगत endpoint शामिल है:

उदाहरण 4: कस्टम सैम्पलरों के साथ Python क्लाइंट

उदाहरण 5: बैच पूर्णताएँ


कॉन्फ़िगरेशन

मुख्य लॉन्च पैरामीटर

पैरामीटर
डिफ़ॉल्ट
विवरण

--model

अनिवार्य

मॉडल आईडी या स्थानीय पथ

--host

127.0.0.1

बाइंड पता

--port

2242

सर्वर पोर्ट

--dtype

auto

float16, bfloat16, float32

--quantization

none

awq, gptq, squeezellm, fp8

--max-model-len

मॉडल अधिकतम

अधिकतम संदर्भ लंबाई ओवरराइड करें

--gpu-memory-utilization

0.90

GPU मेमोरी अंश

--tensor-parallel-size

1

टेंसर पैरेललिज़्म के लिए GPUs की संख्या

--max-num-seqs

256

अधिकतम समवर्ती अनुक्रम

--trust-remote-code

false

कस्टम मॉडल कोड की अनुमति दें

--api-keys

none

प्रमाणीकरण के लिए कॉमा-सेपरेटेड API कुंजियाँ

--served-model-name

मॉडल नाम

API प्रतिक्रियाओं के लिए कस्टम नाम

API की प्रमाणीकरण जोड़ना

फिर उपयोग करें Authorization: Bearer mysecretkey1 अनुरोधों में।

लोकल मॉडल लोड करना


प्रदर्शन सुझाव

1. अपने GPU के लिए सही क्वांटाइज़ेशन चुनें

GPU VRAM
7B मॉडल
13B मॉडल
30B मॉडल

6 GB

GPTQ/AWQ Q4

8 GB

GPTQ Q4

GPTQ Q4 (टाइट)

12 GB

Float16

GPTQ Q4

16 GB

Float16

Float16

GPTQ Q4

24 GB

Float16

Float16

GPTQ Q4

48 GB

Float16

Float16

Float16

2. GPU मेमोरी उपयोग को ट्यून करें

कम से शुरू करें और यदि OOM त्रुटियाँ नहीं आती हैं तो बढ़ाएँ।

3. Ampere+ GPUs पर bfloat16 का उपयोग करें

float16 की तुलना में बेहतर संख्यात्मक स्थिरता, समान गति।

4. रोलप्ले/क्रिएटिव राइटिंग के लिए अनुकूलित करें

ये सैम्पलर नैरेटिव टेक्स्ट के लिए अच्छी तरह काम करते हैं:

5. Pascal GPU टिप्स (GTX 10xx)

Pascal GPU के लिए, Flash Attention से बचें (समर्थित नहीं है):


समस्या निवारण

समस्या: "CUDA capability sm_6x not supported"

Pascal GPU के लिए विशेष हैंडलिंग आवश्यक है। उपयोग करें:

यदि फिर भी विफल हो रहा है, तो जांचें कि क्या इमेज वर्ज़न Pascal को सपोर्ट करता है:

समस्या: छोटे GPU पर "out of memory"

समस्या: टोकन जनरेशन धीमा है

  • चेक करें कि GPU वास्तव में उपयोग हो रहा है: nvidia-smi कन्टेनर के अंदर

  • बड़े बैच साइज़ सक्षम करें: --max-num-seqs 64

  • इनफ़रेंस तेज़ के लिए GPTQ के बजाय AWQ का उपयोग करें

समस्या: मॉडल नहीं मिला / 404 त्रुटियाँ

हमेशा जांचें कि आपका मॉडल नाम बिल्कुल मेल खाता है:

अपने अनुरोधों में प्रतिक्रिया से सटीक मॉडल नाम का उपयोग करें।

समस्या: पुनरावृत्तिपूर्ण आउटपुट

repetition penalty जोड़ें:

समस्या: Docker कंटेनर चुपचाप बंद हो जाता है


लिंक


Clore.ai GPU सिफारिशें

उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत

डेवलपमेंट/टेस्टिंग

RTX 3090 (24GB)

~$0.12/gpu/hr

प्रोडक्शन (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

बड़े मॉडल (70B+)

A100 80GB / H100

~$1.20/gpu/hr

💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं Clore.aiarrow-up-right GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।

Last updated

Was this helpful?