Gemma 2

Clore.ai GPUs पर Google के Gemma 2 मॉडलों को कुशलता से चलाएँ

circle-info

नवीनतम संस्करण उपलब्ध! Google ने जारी किया Gemma 3 मार्च 2025 में — 27B मॉडल Llama 3.1 405B को हराता है और मूल बहुमाध्यम समर्थन जोड़ता है। उन्नयन पर विचार करें।

कुशल इनफ़रेंस के लिए Google के Gemma 2 मॉडलों को चलाएँ।

circle-check

CLORE.AI पर किराये पर लेना

  1. GPU प्रकार, VRAM, और मूल्य के अनुसार फ़िल्टर करें

  2. चुनें ऑन-डिमांड (निश्चित दर) या स्पॉट (बिड प्राइस)

  3. अपना ऑर्डर कॉन्फ़िगर करें:

    • Docker इमेज चुनें

    • पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)

    • यदि आवश्यक हो तो एनवायरनमेंट वेरिएबल जोड़ें

    • स्टार्टअप कमांड दर्ज करें

  4. भुगतान चुनें: CLORE, BTC, या USDT/USDC

  5. ऑर्डर बनाएं और डिप्लॉयमेंट का इंतज़ार करें

अपने सर्वर तक पहुँचें

  • कनेक्शन विवरण में खोजें मेरे ऑर्डर

  • वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें

  • SSH: ssh -p <port> root@<proxy-address>

Gemma 2 क्या है?

Google का Gemma 2 प्रदान करता है:

  • 2B से 27B पैरामीटर तक के मॉडल

  • आकार के हिसाब से उत्कृष्ट प्रदर्शन

  • मजबूत निर्देश पालन क्षमता

  • कुशल आर्किटेक्चर

मॉडल वेरिएंट

मॉडल
पैरामीटर
VRAM
संदर्भ

Gemma-2-2B

2B

3GB

8K

Gemma-2-9B

9B

12GB

8K

Gemma-2-27B

27B

32GB

8K

त्वरित तैनाती

Docker इमेज:

पोर्ट:

कमांड:

अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

  1. जाएँ मेरे ऑर्डर पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की बजाय localhost नीचे दिए उदाहरणों में।

Ollama का उपयोग करना

इंस्टॉलेशन

मूल उपयोग

Gemma 2 2B (हल्का)

एज/मोबाइल पर तैनाती के लिए:

Gemma 2 27B (सर्वोत्तम गुणवत्ता)

vLLM सर्वर

OpenAI-समकक्ष API

स्ट्रीमिंग

Gradio इंटरफ़ेस

बैच प्रोसेसिंग

प्रदर्शन

मॉडल
GPU
टोकन/सेकंड

Gemma-2-2B

RTX 3060

~100

Gemma-2-9B

RTX 3090

~60

Gemma-2-9B

RTX 4090

~85

Gemma-2-27B

A100

~45

Gemma-2-27B (4-bit)

RTX 4090

~30

तुलना

मॉडल
MMLU
गुणवत्ता
स्पीड

Gemma-2-9B

71.3%

बहुत अच्छा

तेज़

Llama-3.1-8B

69.4%

अच्छा

तेज़

Mistral-7B

62.5%

अच्छा

तेज़

समस्याओं का निवारण

triangle-exclamation

27B के लिए - BitsAndBytesConfig के साथ 4-bit क्वांटाइज़ेशन उपयोग करें - `max_new_tokens` घटाएँ - GPU कैश साफ़ करें: `torch.cuda.empty_cache()`

धीमी जनरेशन

  • उत्पादन तैनाती के लिए vLLM का उपयोग करें

  • Flash Attention सक्षम करें

  • तेज़ इनफ़रेंस के लिए 9B मॉडल आज़माएँ

आउटपुट गुणवत्ता समस्याएँ

  • निर्देश-ट्यून किए गए संस्करण का उपयोग करें (-it सफ़िक्स)

  • तापमान समायोजित करें (0.7-0.9 सुझाया गया)

  • संदर्भ के लिए सिस्टम प्रॉम्प्ट जोड़ें

Tokenizer चेतावनियाँ

  • transformers को नवीनतम संस्करण में अपडेट करें

  • उपयोग करें padding_side="left" बैच इनफ़रेंस के लिए

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

कीमतें प्रदाता और मांग के अनुसार बदलती हैं। जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड के लिए मार्केट (अक्सर 30-50% सस्ता)

  • भुगतान करें CLORE टोकन के साथ

  • विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

अगले कदम

  • Llama 3.2 - Meta का मॉडल

  • Qwen2.5 - Alibaba का मॉडल

  • vLLM Inference - प्रोडक्शन सर्विंग

Last updated

Was this helpful?