Qwen2.5

Clore.ai GPUs पर Alibaba के Qwen2.5 बहुभाषी LLMs चलाएँ

CLORE.AI GPU पर Alibaba के Qwen2.5 मॉडल परिवार चलाएँ - शक्तिशाली बहुभाषी LLMs जिनमें उत्कृष्ट कोड और गणित क्षमताएँ हैं।

circle-check

क्यों Qwen2.5?

  • विविध आकार - 0.5B से 72B पैरामीटर

  • बहुभाषी - चीनी सहित 29 भाषाएँ

  • लंबा संदर्भ - 128K टोकन तक

  • विशेषीकृत वेरिएंट - Coder, Math संस्करण

  • ओपन सोर्स - Apache 2.0 लाइसेंस

CLORE.AI पर त्वरित डिप्लॉय

Docker इमेज:

vllm/vllm-openai:latest

पोर्ट:

22/tcp
8000/http

कमांड:

python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-7B-Instruct \
    --host 0.0.0.0 \
    --port 8000

अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

  1. जाएँ मेरे ऑर्डर पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की बजाय localhost नीचे दिए उदाहरणों में।

जांचें कि यह काम कर रहा है

circle-exclamation

Qwen3 रीजनिंग मोड

circle-info

Qwen3 में नया: कुछ Qwen3 मॉडल एक रीजनिंग मोड का समर्थन करते हैं जो अंतिम उत्तर से पहले मॉडल की सोचने की प्रक्रिया को <think> टैग में दिखाता है।

vLLM के माध्यम से Qwen3 मॉडल का उपयोग करते समय, प्रतिक्रियाओं में रीजनिंग शामिल हो सकती है:

रीजनिंग के साथ Qwen3 उपयोग करने के लिए:

मॉडल वेरिएंट

बेस मॉडल

मॉडल
पैरामीटर
VRAM (FP16)
संदर्भ
नोट्स

Qwen2.5-0.5B

0.5B

2GB

32K

एज/परीक्षण

Qwen2.5-1.5B

1.5B

4GB

32K

बहुत हल्का

Qwen2.5-3B

3B

8GB

32K

बजट

Qwen2.5-7B

7B

16GB

128K

संतुलित

Qwen2.5-14B

14B

32GB

128K

उच्च गुणवत्ता

Qwen2.5-32B

32B

70GB

128K

बहुत उच्च गुणवत्ता

Qwen2.5-72B

72B

150GB

128K

सर्वोत्तम गुणवत्ता

Qwen2.5-72B-Instruct

72B

150GB

128K

चैट/इन्स्ट्रक्ट ट्यून किया गया

विशेषीकृत वेरिएंट्स

मॉडल
फोकस
उत्तम हेतु
VRAM (FP16)

Qwen2.5-Coder-7B-Instruct

कोड

प्रोग्रामिंग, डीबगिंग

16GB

Qwen2.5-Coder-14B-Instruct

कोड

जटिल कोड कार्य

32GB

Qwen2.5-Coder-32B-Instruct

कोड

सर्वश्रेष्ठ कोड मॉडल

70GB

Qwen2.5-Math-7B-Instruct

गणित

गणनाएँ, प्रमेय

16GB

Qwen2.5-Math-72B-Instruct

गणित

रिसर्च-ग्रेड गणित

150GB

Qwen2.5-Instruct

चैट

सामान्य सहायक

भिन्नता

हार्डवेयर आवश्यकताएँ

मॉडल
न्यूनतम GPU
अनुशंसित
VRAM (Q4)

0.5B-3B

RTX 3060 12GB

RTX 3080

2-6GB

7B

RTX 3090 24GB

RTX 4090

6GB

14B

A100 40GB

A100 80GB

12GB

32B

A100 80GB

2x A100 40GB

22GB

72B

2x A100 80GB

4x A100 80GB

48GB

Coder-32B

A100 80GB

2x A100 40GB

22GB

इंस्टॉलेशन

vLLM का उपयोग (अनुशंसित)

Ollama का उपयोग करना

Transformers का उपयोग करना

API उपयोग

OpenAI-समकक्ष API

स्ट्रीमिंग

cURL

Qwen2.5-72B-Instruct

फ्लैगशिप Qwen2.5 मॉडल — परिवार में सबसे बड़ा और सबसे सक्षम। यह कई बेंचमार्क पर GPT-4 से प्रतिस्पर्धा करता है और Apache 2.0 के अंतर्गत पूर्ण रूप से ओपन-सोर्स है।

vLLM (मल्टी-GPU) के माध्यम से चलाना

Ollama के माध्यम से चलाना

Python उदाहरण

Qwen2.5-Coder-32B-Instruct

उपलब्ध सर्वश्रेष्ठ ओपन-सोर्स कोड मॉडल। Qwen2.5-Coder-32B-Instruct कई कोडिंग बेंचमार्क पर GPT-4o से मेल खाता है या उससे बेहतर है, और 40+ प्रोग्रामिंग भाषाओं का समर्थन करता है।

vLLM के माध्यम से चलाना

Ollama के माध्यम से चलाना

कोड जनरेशन उदाहरण

Qwen2.5-Coder

कोड जनरेशन के लिए अनुकूलित:

Qwen2.5-Math

गणितीय तर्क के लिए विशेषीकृत:

बहुभाषी समर्थन

Qwen2.5 29 भाषाओं का समर्थन करता है:

लंबा संदर्भ (128K)

क्वांटाइज़ेशन

Ollama के साथ GGUF

vLLM के साथ AWQ

GGUF के साथ llama.cpp

मल्टी-GPU सेटअप

टेंसर पैरालेलिज़्म

प्रदर्शन

थ्रूपुट (टोकन/सेकंड)

मॉडल
RTX 3090
RTX 4090
A100 40GB
A100 80GB

Qwen2.5-0.5B

250

320

380

400

Qwen2.5-3B

150

200

250

280

Qwen2.5-7B

75

100

130

150

Qwen2.5-7B Q4

110

140

180

200

Qwen2.5-14B

-

55

70

85

Qwen2.5-32B

-

-

35

50

Qwen2.5-72B

-

-

20 (2x)

40 (2x)

Qwen2.5-72B Q4

-

-

-

55 (2x)

Qwen2.5-Coder-32B

-

-

32

48

पहले टोकन तक का समय (TTFT)

मॉडल
RTX 4090
A100 40GB
A100 80GB

7B

60ms

40ms

35ms

14B

120ms

80ms

60ms

32B

-

200ms

140ms

72B

-

400ms (2x)

280ms (2x)

संदर्भ लंबाई बनाम VRAM (7B)

संदर्भ
FP16
Q8
Q4

8K

16GB

10GB

6GB

32K

24GB

16GB

10GB

64K

40GB

26GB

16GB

128K

72GB

48GB

28GB

बेंचमार्क्स

मॉडल
MMLU
HumanEval
GSM8K
गणित
LiveCodeBench

Qwen2.5-7B

74.2%

75.6%

85.4%

55.2%

42.1%

Qwen2.5-14B

79.7%

81.1%

89.5%

65.8%

51.3%

Qwen2.5-32B

83.3%

84.2%

91.2%

72.1%

60.7%

Qwen2.5-72B

86.1%

86.2%

93.2%

79.5%

67.4%

Qwen2.5-Coder-7B

72.8%

88.4%

86.1%

58.4%

64.2%

Qwen2.5-Coder-32B

83.1%

92.7%

92.3%

76.8%

78.5%

Docker Compose

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें:

GPU
घंटात्मक दर
उत्तम हेतु

RTX 3090 24GB

~$0.06

7B मॉडल्स

RTX 4090 24GB

~$0.10

7B-14B मॉडल

A100 40GB

~$0.17

14B-32B मॉडल

A100 80GB

~$0.25

32B मॉडल, Coder-32B

2x A100 80GB

~$0.50

72B मॉडल

4x A100 80GB

~$1.00

72B अधिकतम संदर्भ

कीमतें प्रदाता के अनुसार विभिन्न होती हैं। जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड के लिए बाजार

  • भुगतान करें CLORE टोकन के साथ

  • परीक्षण के लिए छोटे मॉडलों (7B) से शुरू करें

समस्याओं का निवारण

आउट ऑफ़ मेमोरी

धीमा जनरेशन

चीनी अक्षर प्रदर्शन

मॉडल नहीं मिला

Qwen2.5 बनाम अन्य

फ़ीचर
Qwen2.5-7B
Qwen2.5-72B
Llama 3.1 70B
GPT-4o

संदर्भ

128K

128K

128K

128K

बहुभाषी

उत्कृष्ट

उत्कृष्ट

अच्छा

उत्कृष्ट

कोड

उत्कृष्ट

उत्कृष्ट

अच्छा

उत्कृष्ट

गणित

उत्कृष्ट

उत्कृष्ट

अच्छा

उत्कृष्ट

चीनी

उत्कृष्ट

उत्कृष्ट

खराब

अच्छा

लाइसेंस

Apache 2.0

Apache 2.0

Llama 3.1

प्रोप्रायटरी

लागत

मुफ्त

मुफ्त

मुफ्त

पेड API

Qwen2.5 का उपयोग तब करें जब:

  • चीनी भाषा समर्थन आवश्यक हो

  • गणित/कोड कार्य प्राथमिकता हों

  • लंबा संदर्भ आवश्यक हो

  • Apache 2.0 लाइसेंस चाहिए

  • सबसे अच्छा ओपन-सोर्स कोड मॉडल चाहिए (Coder-32B)

अगले कदम

Last updated

Was this helpful?