Florence-2

कैप्शनिंग, डिटेक्शन और सेगमेंटेशन के लिए Microsoft Florence-2

कैप्शनिंग, डिटेक्शन, सेगमेंटेशन और अधिक के लिए Microsoft का शक्तिशाली विजन मॉडल।

circle-check
circle-info

इस मार्गदर्शिका के सभी उदाहरणों को GPU सर्वरों पर चलाया जा सकता है जिन्हें के माध्यम से किराए पर लिया जाता है CLORE.AI मार्केटप्लेसarrow-up-right मार्केटप्लेस।

CLORE.AI पर किराये पर लेना

  1. GPU प्रकार, VRAM, और मूल्य के अनुसार फ़िल्टर करें

  2. चुनें ऑन-डिमांड (निश्चित दर) या स्पॉट (बिड प्राइस)

  3. अपना ऑर्डर कॉन्फ़िगर करें:

    • Docker इमेज चुनें

    • पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)

    • यदि आवश्यक हो तो एनवायरनमेंट वेरिएबल जोड़ें

    • स्टार्टअप कमांड दर्ज करें

  4. भुगतान चुनें: CLORE, BTC, या USDT/USDC

  5. ऑर्डर बनाएं और डिप्लॉयमेंट का इंतज़ार करें

अपने सर्वर तक पहुँचें

  • कनेक्शन विवरण में खोजें मेरे ऑर्डर

  • वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें

  • SSH: ssh -p <port> root@<proxy-address>

Florence-2 क्या है?

Microsoft का Florence-2 एक विजन फाउंडेशन मॉडल है जो संभालता है:

  • इमेज कैप्शनिंग (संक्षिप्त और विस्तृत)

  • ऑब्जेक्ट डिटेक्शन और लोकलाइज़ेशन

  • डेंस रीजन कैप्शनिंग

  • रिफरिंग एक्सप्रेशन कंप्रीहेंशन

  • OCR और टेक्स्ट रिकग्निशन

  • विजुअल क्वेश्चन आंसरिंग

संसाधन

अनुशंसित हार्डवेयर

घटक
न्यूनतम
अनुशंसित
सर्वोत्तम

GPU

RTX 3060 12GB

RTX 4080 16GB

RTX 4090 24GB

VRAM

8GB

12GB

16GB

CPU

4 कोर

8 कोर

16 कोर

RAM

16GB

32GB

64GB

स्टोरेज

30GB SSD

50GB NVMe

100GB NVMe

इंटरनेट

100 Mbps

500 Mbps

1 Gbps

CLORE.AI पर त्वरित डिप्लॉय

Docker इमेज:

पोर्ट:

कमांड:

अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

  1. जाएँ मेरे ऑर्डर पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की बजाय localhost नीचे दिए उदाहरणों में।

इंस्टॉलेशन

आप क्या बना सकते हैं

कंटेंट विश्लेषण

  • इमेज विवरण स्वचालित रूप से जनरेट करें

  • छवियों से टेक्स्ट निकालें (OCR)

  • स्केल पर विजुअल कंटेंट का विश्लेषण करें

डेटा एनोटेशन

  • कैप्शन के साथ डेटासेट्स को स्वचालित रूप से लेबल करें

  • ऑब्जेक्ट्स के लिए बाउंडिंग बॉक्स जनरेट करें

  • डेंस एनोटेशन बनाएं

एक्सेसिबिलिटी

  • छवियों के लिए ऑल्ट-टेक्स्ट जनरेट करें

  • दृष्टिहीनों के लिए छवियों का वर्णन करें

  • ऑडियो विवरण बनाएं

सर्च और डिस्कवरी

  • कंटेंट द्वारा इमेजेस का इंडेक्स बनाएं

  • विज़ुअल सर्च सिस्टम बनाएं

  • कंटेंट मॉडरेशन

डॉक्यूमेंट प्रोसेसिंग

  • डॉक्यूमेंट्स से टेक्स्ट निकालें

  • चार्ट और डायग्राम समझें

  • स्कैन किए गए सामग्री को प्रोसेस करें

मूल उपयोग

इमेज कैप्शनिंग

ऑब्जेक्ट डिटेक्शन

OCR (टेक्स्ट रिकग्निशन)

डेंस रीजन कैप्शनिंग

रिफरिंग एक्सप्रेशन कंप्रीहेंशन

टेक्स्ट विवरण के आधार पर ऑब्जेक्ट खोजें:

सभी उपलब्ध टास्क

बैच प्रोसेसिंग

Gradio इंटरफ़ेस

प्रदर्शन

कार्य
रिज़ॉल्यूशन
GPU
स्पीड

कैप्शन

768x768

RTX 3090

200ms

कैप्शन

768x768

RTX 4090

120ms

ऑब्जेक्ट डिटेक्शन

768x768

RTX 4090

150ms

OCR

768x768

RTX 4090

180ms

डेंस कैप्शन

768x768

A100

100ms

मॉडल वेरिएंट

मॉडल
पैरामीटर
VRAM
स्पीड

Florence-2-base

232M

4GB

तेज़

Florence-2-large

771M

8GB

मध्यम

Florence-2-base-ft

232M

4GB

तेज़

Florence-2-large-ft

771M

8GB

मध्यम

सामान्य समस्याएँ और समाधान

आउट ऑफ़ मेमोरी

समस्या: CUDA OOM त्रुटि

समाधान:

धिमा इनफ़रेंस

समस्या: प्रोसेसिंग में बहुत समय लग रहा है

समाधान:

  • तेज़ इनफ़रेंस के लिए Florence-2-base का उपयोग करें

  • स्पीडअप के लिए flash-attention इंस्टॉल करें

  • एक साथ कई इमेजेस को बैच करें

  • प्रोडक्शन के लिए A100 GPU का उपयोग करें

खराब OCR परिणाम

समस्या: टेक्स्ट रिकग्निशन असटीक है

समाधान:

  • सुनिश्चित करें कि इमेज हाई रेज़ोल्यूशन है (कम से कम 768px)

  • उपयोग करें <OCR_WITH_REGION> बेहतर लोकलाइज़ेशन के लिए

  • पूर्व-प्रोसेस: कंट्रास्ट बढ़ाएँ, इमेज को डेस्क्यू करें

  • OCR से पहले टेक्स्ट क्षेत्रों को क्रॉप करें

डिटेक्शन में मिसिंग ऑब्जेक्ट्स

समस्या: ऑब्जेक्ट्स डिटेक्ट नहीं हो रहे हैं

समाधान:

  • उपयोग करें <DENSE_REGION_CAPTION> अधिक क्षेत्रों के लिए

  • आज़माएँ <OPEN_VOCABULARY_DETECTION> विशिष्ट लेबल के साथ

  • विशिष्ट ऑब्जेक्ट्स के लिए GroundingDINO के साथ संयोजन करें

समस्याओं का निवारण

टास्क काम नहीं कर रहा

  • सही टास्क नाम सिंटैक्स जांचें

  • कुछ टास्क को विशिष्ट इनपुट फ़ॉर्मेट की आवश्यकता होती है

  • सत्यापित करें कि मॉडल संस्करण टास्क से मेल खाता है

आउटपुट फ़ॉर्मेट अप्रत्याशित

  • विभिन्न टास्क अलग-अलग फ़ॉर्मैट लौटाते हैं

  • टास्क प्रकार के अनुसार आउटपुट को पार्स करें

  • टास्क आउटपुट के लिए दस्तावेज़ीकरण जांचें

CUDA मेमोरी समस्याएँ

  • Florence-2-large को ~8GB VRAM की आवश्यकता होती है

  • कम मेमोरी के लिए Florence-2-base का उपयोग करें

  • ग्रेडियेंट चेकपॉइंटिंग सक्षम करें

धीमा प्रोसेसिंग

  • संभव हो तो बैच इनफ़रेंस का उपयोग करें

  • FP16 मोड सक्षम करें

  • TensorRT ऑप्टिमाइज़ेशन पर विचार करें

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

कीमतें प्रदाता और मांग के अनुसार बदलती हैं। जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड के लिए मार्केट (अक्सर 30-50% सस्ता)

  • भुगतान करें CLORE टोकन के साथ

  • विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

अगले कदम

  • LLaVA - विज़न चैट और QA

  • GroundingDINO - ज़ीरो-शॉट डिटेक्शन

  • SAM2 - डिटेक्ट किए गए ऑब्जेक्ट्स का सेगमेंट

Last updated

Was this helpful?