Text Generation WebUI

Clore.ai GPUs पर LLM इनफरेंस के लिए text-generation-webui चलाएँ

सभी मॉडल स्वरूपों के समर्थन के साथ सबसे लोकप्रिय LLM इंटरफ़ेस चलाएँ।

circle-check

CLORE.AI पर किराये पर लेना

  1. GPU प्रकार, VRAM, और मूल्य के अनुसार फ़िल्टर करें

  2. चुनें ऑन-डिमांड (निश्चित दर) या स्पॉट (बिड प्राइस)

  3. अपना ऑर्डर कॉन्फ़िगर करें:

    • Docker इमेज चुनें

    • पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)

    • यदि आवश्यक हो तो एनवायरनमेंट वेरिएबल जोड़ें

    • स्टार्टअप कमांड दर्ज करें

  4. भुगतान चुनें: CLORE, BTC, या USDT/USDC

  5. ऑर्डर बनाएं और डिप्लॉयमेंट का इंतज़ार करें

अपने सर्वर तक पहुँचें

  • कनेक्शन विवरण में खोजें मेरे ऑर्डर

  • वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें

  • SSH: ssh -p <port> root@<proxy-address>

Text Generation WebUI क्यों?

  • GGUF, GPTQ, AWQ, EXL2, HF फ़ॉर्मैट्स का समर्थन करता है

  • बिल्ट-इन चैट, नोटबुक, और API मोड

  • एक्सटेंशन: वॉइस, किरदार, मल्टीमॉडल

  • फाइन-ट्यूनिंग समर्थन

  • फ्लाई पर मॉडल स्विचिंग

आवश्यकताएँ

मॉडल आकार
न्यूनतम VRAM
अनुशंसित

7B (Q4)

6GB

RTX 3060

13B (Q4)

10GB

RTX 3080

30B (Q4)

20GB

RTX 4090

70B (Q4)

40GB

A100

त्वरित तैनाती

Docker इमेज:

पोर्ट:

पर्यावरण:

मैनुअल इंस्टॉलेशन

इमेज:

पोर्ट:

कमांड:

अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

  1. जाएँ मेरे ऑर्डर पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की बजाय localhost नीचे दिए उदाहरणों में।

WebUI तक पहुँचें

  1. डिप्लॉयमेंट का इंतजार करें

  2. में पोर्ट 7860 मैपिंग खोजें मेरे ऑर्डर

  3. खोलें: http://<proxy>:<port>

मॉडल डाउनलोड करें

HuggingFace से (WebUI में)

  1. जाएँ मॉडल टैब

  2. मॉडल नाम दर्ज करें: bartowski/Meta-Llama-3.1-8B-Instruct-GGUF

  3. क्लिक करें डाउनलोड

कमांड लाइन के जरिए

अनुशंसित मॉडल

चैट के लिए:

कोडिंग के लिए:

रोलप्ले के लिए:

मॉडल लोड हो रहे हैं

GGUF (अधिकांश उपयोगकर्ताओं के लिए अनुशंसित)

  1. मॉडल टैब → मॉडल फ़ोल्डर चुनें

  2. मॉडल लोडर: llama.cpp

  3. सेट करें n-gpu-layers:

    • RTX 3090: 35-40

    • RTX 4090: 45-50

    • A100: 80+

  4. क्लिक करें लोड

GPTQ (तेज़, क्वांटाइज़्ड)

  1. GPTQ मॉडल डाउनलोड करें

  2. मॉडल लोडर: ExLlama_HF या AutoGPTQ

  3. मॉडल लोड करें

EXL2 (सर्वोत्तम गति)

  1. EXL2 मॉडल डाउनलोड करें

  2. मॉडल लोडर: ExLlamav2_HF

  3. लोड

चैट कॉन्फ़िगरेशन

करेक्टर सेटअप

  1. जाएँ पैरामीटरकिरदार

  2. किरदार कार्ड बनाएँ या लोड करें

  3. सेट करें:

    • नाम

    • संदर्भ/व्यक्तित्व

    • उदाहरण संवाद

Instruct मोड

निर्देश-ट्यून किए गए मॉडलों के लिए:

  1. पैरामीटरनिर्देश टेम्पलेट

  2. अपने मॉडल से मेल खाने वाला टेम्पलेट चुनें:

    • Llama-2-chat

    • Mistral

    • ChatML

    • Alpaca

API उपयोग

API सक्षम करें

से शुरू करें --api flag (डिफ़ॉल्ट पोर्ट 5000)

OpenAI-अनुकूल API

नेटिव API

एक्सटेंशन

एक्सटेंशन इंस्टॉल करना

एक्सटेंशन सक्षम करें

  1. सत्र टैब → एक्सटेंशन

  2. वांछित एक्सटेंशनों के लिए चेक बॉक्स चुनें

  3. क्लिक करें लागू करें और पुनःप्रारंभ करें

लोकप्रिय एक्सटेंशन

एक्सटेंशन
उद्देश्य

silero_tts

वॉइस आउटपुट

whisper_stt

वॉइस इनपुट

superbooga

दस्तावेज़ प्रश्नोत्तर

sd_api_pictures

इमेज जनरेशन

मल्टीमॉडल

इमेज समझना

प्रदर्शन ट्यूनिंग

GGUF सेटिंग्स

मेमोरी अनुकूलन

सीमित VRAM के लिए:

स्पीड ऑप्टिमाइज़ेशन

फाइन-ट्यूनिंग (LoRA)

ट्रेनिंग टैब

  1. जाएँ प्रशिक्षण टैब

  2. बेस मॉडल लोड करें

  3. डेटासेट अपलोड करें (JSON फॉर्मैट)

  4. कॉन्फ़िगर करें:

    • LoRA रैंक: 8-32

    • लर्निंग रेट: 1e-4

    • एपॉक्स: 3-5

  5. प्रशिक्षण शुरू करें

डेटासेट फॉर्मैट

अपने काम को सेव करना

समस्याओं का निवारण

मॉडल लोड नहीं होगा

  • VRAM उपयोग की जाँच करें: nvidia-smi

  • घटाएँ n_gpu_layers

  • छोटी क्वांटाइज़ेशन का उपयोग करें (Q4_K_M → Q4_K_S)

धीमी जनरेशन

  • बढ़ाएँ n_gpu_layers

  • GGUF के बजाय EXL2 का उपयोग करें

  • सक्षम करें --no-mmap

triangle-exclamation

जनरेशन के दौरान - `n_ctx` (संदर्भ लंबाई) घटाएँ - CPU-ओनली के लिए `--n-gpu-layers 0` उपयोग करें - छोटे मॉडल आज़माएँ

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

कीमतें प्रदाता और मांग के अनुसार बदलती हैं। जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड के लिए मार्केट (अक्सर 30-50% सस्ता)

  • भुगतान करें CLORE टोकन के साथ

  • विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

Last updated

Was this helpful?