Llama 3.2 Vision

Clore.ai पर इमेज समझ के लिए Meta का Llama 3.2 Vision चलाएँ

इमेज समझने के लिए Meta के मल्टीमॉडल Llama 3.2 Vision मॉडलों को CLORE.AI GPU पर चलाएँ।

circle-check

क्यों Llama 3.2 Vision?

  • मल्टीमॉडल - टेक्स्ट और छवियों दोनों को समझता है

  • कई आकार - 11B और 90B पैरामीटर वर्शन

  • बहुमुखी - OCR, विज़ुअल QA, इमेज कैप्शनिंग, डॉक्यूमेंट विश्लेषण

  • ओपन वेट्स - Meta से पूरी तरह ओपन सोर्स

  • Llama इकोसिस्टम - Ollama, vLLM, transformers के साथ संगत

मॉडल वेरिएंट

मॉडल
पैरामीटर
VRAM (FP16)
संदर्भ
उत्तम हेतु

Llama-3.2-11B-Vision

11B

24GB

128K

सामान्य उपयोग, एकल GPU

Llama-3.2-90B-Vision

90B

180GB

128K

अधिकतम गुणवत्ता

Llama-3.2-11B-Vision-Instruct

11B

24GB

128K

चैट/असिस्टेंट

Llama-3.2-90B-Vision-Instruct

90B

180GB

128K

प्रोडक्शन

CLORE.AI पर त्वरित डिप्लॉय

Docker इमेज:

पोर्ट:

कमांड:

अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

  1. जाएँ मेरे ऑर्डर पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की बजाय localhost नीचे दिए उदाहरणों में।

हार्डवेयर आवश्यकताएँ

मॉडल
न्यूनतम GPU
अनुशंसित
सर्वोत्तम

11B विज़न

RTX 4090 24GB

A100 40GB

A100 80GB

90B विज़न

4x A100 40GB

4x A100 80GB

8x H100

इंस्टॉलेशन

Ollama का उपयोग करना (सबसे आसान)

vLLM का उपयोग करना

Transformers का उपयोग करना

मूल उपयोग

इमेज समझ

Ollama के साथ

vLLM API के साथ

उपयोग के मामले

prompt = "इस छवि का विस्तार से वर्णन करें, जिसमें रंग, वस्तुएँ और वातावरण शामिल हों."

दस्तावेज़ विश्लेषण

विज़ुअल प्रश्नोत्तरी (Visual Question Answering)

इमेज कैप्शनिंग

स्क्रीनशॉट से कोड

कई छवियाँ

बैच प्रोसेसिंग

Gradio इंटरफ़ेस

प्रदर्शन

कार्य
मॉडल
GPU
समय

एकल छवि का विवरण

11B

RTX 4090

~3s

एकल छवि का विवरण

11B

A100 40GB

~2s

OCR (1 पृष्ठ)

11B

RTX 4090

~5s

दस्तावेज़ विश्लेषण

11B

A100 40GB

~8s

बैच (10 छवियाँ)

11B

A100 40GB

~25s

क्वांटाइज़ेशन

bitsandbytes के साथ 4-बिट

Ollama के साथ GGUF

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें:

GPU
घंटात्मक दर
उत्तम हेतु

RTX 4090 24GB

~$0.10

11B मॉडल

A100 40GB

~$0.17

लंबे संदर्भ के साथ 11B

A100 80GB

~$0.25

11B इष्टतम

4x A100 80GB

~$1.00

90B मॉडल

कीमतें भिन्न होती हैं। जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

पैसे बचाएँ:

  • उपयोग करें स्पॉट बैच प्रोसेसिंग के लिए आदेश

  • भुगतान करें CLORE टोकन के साथ

  • विकास के लिए क्वान्टाइज़्ड मॉडल (4-बिट) का उपयोग करें

समस्याओं का निवारण

आउट ऑफ़ मेमोरी

धीमा जनरेशन

  • सुनिश्चित करें कि GPU उपयोग हो रहा है (जाँचें nvidia-smi)

  • float32 के बजाय bfloat16 का उपयोग करें

  • प्रोसेसिंग से पहले छवि रिज़ॉल्यूशन घटाएँ

  • बेहतर थ्रूपुट के लिए vLLM का उपयोग करें

छवि लोड नहीं हो रही

HuggingFace टोकन आवश्यक

Llama Vision बनाम अन्य

फ़ीचर
Llama 3.2 Vision
LLaVA 1.6
GPT-4V

पैरामीटर

11B / 90B

7B / 34B

अज्ञात

ओपन सोर्स

हां

हां

नहीं

OCR गुणवत्ता

उत्कृष्ट

अच्छा

उत्कृष्ट

संदर्भ

128K

32K

128K

मल्टी-इमेज

हां

सीमित

हां

लाइसेंस

Llama 3.2

Apache 2.0

प्रोप्रायटरी

Llama 3.2 Vision का उपयोग करें जब:

  • ओपन-सोर्स मल्टीमॉडल चाहिए

  • OCR और दस्तावेज़ विश्लेषण आवश्यक हो

  • Llama इकोसिस्टम के साथ एकीकरण

  • लॉन्ग-कॉन्टेक्स्ट समझ

अगले कदम

  • LLaVA - वैकल्पिक विज़न मॉडल

  • Florence-2 - Microsoft's विज़न मॉडल

  • Ollama - आसान तैनाती

  • vLLM - प्रोडक्शन सर्विंग

Last updated

Was this helpful?