Qwen2.5

Clore.ai GPUs पर Alibaba के Qwen2.5 बहुभाषी LLMs चलाएँ

CLORE.AI GPU पर Alibaba के Qwen2.5 मॉडल परिवार चलाएँ - शक्तिशाली बहुभाषी LLMs जिनमें उत्कृष्ट कोड और गणित क्षमताएँ हैं।

सभी उदाहरण GPU सर्वरों पर चलाए जा सकते हैं जिन्हें द्वारा किराए पर लिया गया है CLORE.AI मार्केटप्लेस.

क्यों Qwen2.5?

विविध आकार - 0.5B से 72B पैरामीटर
बहुभाषी - चीनी सहित 29 भाषाएँ
लंबा संदर्भ - 128K टोकन तक
विशेषीकृत वेरिएंट - Coder, Math संस्करण
ओपन सोर्स - Apache 2.0 लाइसेंस

CLORE.AI पर त्वरित डिप्लॉय

Docker इमेज:

vllm/vllm-openai:latest

पोर्ट:

22/tcp
8000/http

कमांड:

python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-7B-Instruct \
    --host 0.0.0.0 \
    --port 8000

अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

जाएँ मेरे ऑर्डर पृष्ठ
अपने ऑर्डर पर क्लिक करें
खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की बजाय localhost नीचे दिए उदाहरणों में।

जांचें कि यह काम कर रहा है

# जाँचें कि सेवा तैयार है या नहीं
curl https://your-http-pub.clorecloud.net/health

# उपलब्ध मॉडल सूचीबद्ध करें
curl https://your-http-pub.clorecloud.net/v1/models

यदि आपको HTTP 502 मिलता है, तो 5-15 मिनट प्रतीक्षा करें - मॉडल अभी भी HuggingFace से डाउनलोड हो रहा है।

Qwen3 रीजनिंग मोड

Qwen3 में नया: कुछ Qwen3 मॉडल एक रीजनिंग मोड का समर्थन करते हैं जो अंतिम उत्तर से पहले मॉडल की सोचने की प्रक्रिया को <think> टैग में दिखाता है।

vLLM के माध्यम से Qwen3 मॉडल का उपयोग करते समय, प्रतिक्रियाओं में रीजनिंग शामिल हो सकती है:

{
  "content": "<think>\nLet me think about this step by step...\n</think>\n\nThe answer is..."
}

रीजनिंग के साथ Qwen3 उपयोग करने के लिए:

vllm serve Qwen/Qwen3-0.6B --host 0.0.0.0 --port 8000

मॉडल वेरिएंट

बेस मॉडल

मॉडल

पैरामीटर

VRAM (FP16)

संदर्भ

नोट्स

Qwen2.5-0.5B

0.5B

2GB

32K

एज/परीक्षण

Qwen2.5-1.5B

1.5B

4GB

32K

बहुत हल्का

Qwen2.5-3B

8GB

32K

बजट

Qwen2.5-7B

16GB

128K

संतुलित

Qwen2.5-14B

14B

32GB

128K

उच्च गुणवत्ता

Qwen2.5-32B

32B

70GB

128K

बहुत उच्च गुणवत्ता

Qwen2.5-72B

72B

150GB

128K

सर्वोत्तम गुणवत्ता

Qwen2.5-72B-Instruct

72B

150GB

128K

चैट/इन्स्ट्रक्ट ट्यून किया गया

विशेषीकृत वेरिएंट्स

मॉडल

फोकस

उत्तम हेतु

VRAM (FP16)

Qwen2.5-Coder-7B-Instruct

कोड

प्रोग्रामिंग, डीबगिंग

16GB

Qwen2.5-Coder-14B-Instruct

कोड

जटिल कोड कार्य

32GB

Qwen2.5-Coder-32B-Instruct

कोड

सर्वश्रेष्ठ कोड मॉडल

70GB

Qwen2.5-Math-7B-Instruct

गणित

गणनाएँ, प्रमेय

16GB

Qwen2.5-Math-72B-Instruct

गणित

रिसर्च-ग्रेड गणित

150GB

Qwen2.5-Instruct

चैट

सामान्य सहायक

भिन्नता

हार्डवेयर आवश्यकताएँ

मॉडल

न्यूनतम GPU

अनुशंसित

VRAM (Q4)

0.5B-3B

RTX 3060 12GB

RTX 3080

2-6GB

RTX 3090 24GB

RTX 4090

6GB

14B

A100 40GB

A100 80GB

12GB

32B

A100 80GB

2x A100 40GB

22GB

72B

2x A100 80GB

4x A100 80GB

48GB

Coder-32B

A100 80GB

2x A100 40GB

22GB

इंस्टॉलेशन

vLLM का उपयोग (अनुशंसित)

pip install vllm==0.7.3

python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-7B-Instruct \
    --host 0.0.0.0 \
    --port 8000

Ollama का उपयोग करना

# स्टैंडर्ड मॉडल
ollama pull qwen2.5:7b
ollama pull qwen2.5:14b
ollama pull qwen2.5:32b
ollama pull qwen2.5:72b       # नया: सबसे बड़ा Qwen2.5

# विशेषीकृत
ollama pull qwen2.5-coder:7b
ollama pull qwen2.5-coder:32b  # नया: सर्वश्रेष्ठ कोड मॉडल

# चैट चलाएँ
ollama run qwen2.5:7b

Transformers का उपयोग करना

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "Qwen/Qwen2.5-7B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto"
)

messages = [{"role": "user", "content": "Hello!"}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

API उपयोग

OpenAI-समकक्ष API

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="Qwen/Qwen2.5-7B-Instruct",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain machine learning in simple terms."}
    ],
    temperature=0.7,
    max_tokens=500
)

print(response.choices[0].message.content)

स्ट्रीमिंग

stream = client.chat.completions.create(
    model="Qwen/Qwen2.5-7B-Instruct",
    messages=[{"role": "user", "content": "AI के बारे में एक कविता लिखो"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

cURL

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "Qwen/Qwen2.5-7B-Instruct",
        "messages": [
            {"role": "user", "content": "What is Python?"}
        ]
    }'

Qwen2.5-72B-Instruct

फ्लैगशिप Qwen2.5 मॉडल — परिवार में सबसे बड़ा और सबसे सक्षम। यह कई बेंचमार्क पर GPT-4 से प्रतिस्पर्धा करता है और Apache 2.0 के अंतर्गत पूर्ण रूप से ओपन-सोर्स है।

vLLM (मल्टी-GPU) के माध्यम से चलाना

# 4x A100 80GB सेटअप
vllm serve Qwen/Qwen2.5-72B-Instruct \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 32768 \
    --gpu-memory-utilization 0.9

# AWQ क्वांटाइज़्ड — 2x A100 80GB पर चलता है
vllm serve Qwen/Qwen2.5-72B-Instruct-AWQ \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 2 \
    --quantization awq \
    --max-model-len 32768

Ollama के माध्यम से चलाना

# 72B मॉडल पुल करें (Q4 के लिए 48GB+ VRAM चाहिए)
ollama pull qwen2.5:72b

# इंटरैक्टिव सत्र चलाएँ
ollama run qwen2.5:72b

# API पहुँच
curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:72b",
  "messages": [{"role": "user", "content": "Analyze this complex scenario..."}],
  "stream": false
}'

Python उदाहरण

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")

# 72B मॉडल जटिल विश्लेषणात्मक कार्यों में उत्कृष्ट प्रदर्शन करता है
response = client.chat.completions.create(
    model="Qwen/Qwen2.5-72B-Instruct",
    messages=[
        {
            "role": "system",
            "content": "आप एक विशेषज्ञ विश्लेषक हैं। विस्तृत, सूक्ष्म उत्तर प्रदान करें।"
        },
        {
            "role": "user",
            "content": """Compare the architectural differences between transformer and 
            state space models (SSMs) for sequence modeling. Include efficiency tradeoffs."""
        }
    ],
    temperature=0.7,
    max_tokens=2000
)

print(response.choices[0].message.content)

Qwen2.5-Coder-32B-Instruct

उपलब्ध सर्वश्रेष्ठ ओपन-सोर्स कोड मॉडल। Qwen2.5-Coder-32B-Instruct कई कोडिंग बेंचमार्क पर GPT-4o से मेल खाता है या उससे बेहतर है, और 40+ प्रोग्रामिंग भाषाओं का समर्थन करता है।

vLLM के माध्यम से चलाना

# सिंगल A100 80GB
vllm serve Qwen/Qwen2.5-Coder-32B-Instruct \
    --host 0.0.0.0 \
    --port 8000 \
    --max-model-len 16384 \
    --gpu-memory-utilization 0.9

# डुअल RTX 4090 (प्रत्येक 24GB = कुल 48GB, Q4 क्वांटाइज़ेशन का उपयोग)
vllm serve Qwen/Qwen2.5-Coder-32B-Instruct-AWQ \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 2 \
    --quantization awq

Ollama के माध्यम से चलाना

# Coder-32B पुल करें (Q4 के लिए ~22GB VRAM चाहिए)
ollama pull qwen2.5-coder:32b

# चलाएँ
ollama run qwen2.5-coder:32b

# कोडिंग प्रॉम्प्ट के साथ परीक्षण करें
ollama run qwen2.5-coder:32b "Write a Python async web scraper using aiohttp"

कोड जनरेशन उदाहरण

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")

# फुल-स्टैक कोड जनरेशन
response = client.chat.completions.create(
    model="Qwen/Qwen2.5-Coder-32B-Instruct",
    messages=[
        {
            "role": "system",
            "content": "आप एक विशेषज्ञ सॉफ्टवेयर इंजीनियर हैं। उचित त्रुटि हैंडलिंग और दस्तावेज़ीकरण के साथ साफ और प्रोडक्शन-रेडी कोड लिखें।"
        },
        {
            "role": "user",
            "content": """Write a Python FastAPI service that:
1. Accepts POST /summarize with JSON body {"text": "...", "max_length": 150}
2. Uses a local Ollama instance to summarize the text
3. Returns {"summary": "...", "original_length": N, "summary_length": N}
4. Includes proper error handling, input validation with Pydantic, and async support"""
        }
    ],
    temperature=0.1,  # कोड के लिए कम तापमान
    max_tokens=3000
)

print(response.choices[0].message.content)

# कोड समीक्षा और डीबगिंग
code_to_review = """
def find_duplicates(lst):
    seen = []
    duplicates = []
    for item in lst:
        if item in seen:
            duplicates.append(item)
        seen.append(item)
    return duplicates
"""

response = client.chat.completions.create(
    model="Qwen/Qwen2.5-Coder-32B-Instruct",
    messages=[
        {
            "role": "user",
            "content": f"Review this Python code for performance issues and suggest improvements:\n\n```python\n{code_to_review}\n```"
        }
    ],
    temperature=0.3
)

print(response.choices[0].message.content)

Qwen2.5-Coder

कोड जनरेशन के लिए अनुकूलित:

# vLLM का उपयोग
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-Coder-7B-Instruct \
    --host 0.0.0.0

# Ollama का उपयोग
ollama run qwen2.5-coder:7b

prompt = """Write a Python function that:
1. संख्या की सूची लेता है
2. Returns the median value
3. Handles empty lists gracefully
Include type hints and docstrings."""

response = client.chat.completions.create(
    model="Qwen/Qwen2.5-Coder-7B-Instruct",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.2
)

print(response.choices[0].message.content)

Qwen2.5-Math

गणितीय तर्क के लिए विशेषीकृत:

# vLLM का उपयोग
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-Math-7B-Instruct \
    --host 0.0.0.0

prompt = """Solve step by step:
Find all values of x where: x^3 - 6x^2 + 11x - 6 = 0"""

response = client.chat.completions.create(
    model="Qwen/Qwen2.5-Math-7B-Instruct",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.1
)

print(response.choices[0].message.content)

बहुभाषी समर्थन

Qwen2.5 29 भाषाओं का समर्थन करता है:

# चीनी
response = client.chat.completions.create(
    model="Qwen/Qwen2.5-7B-Instruct",
    messages=[{"role": "user", "content": "用中文解释什么是人工智能"}]
)

# जापानी
response = client.chat.completions.create(
    model="Qwen/Qwen2.5-7B-Instruct",
    messages=[{"role": "user", "content": "人工知能について日本語で説明してください"}]
)

# कोरियन
response = client.chat.completions.create(
    model="Qwen/Qwen2.5-7B-Instruct",
    messages=[{"role": "user", "content": "인공지능에 대해 한국어로 설명해주세요"}]
)

लंबा संदर्भ (128K)

# एक लंबा दस्तावेज़ पढ़ें
with open("long_document.txt", "r") as f:
    document = f.read()

response = client.chat.completions.create(
    model="Qwen/Qwen2.5-7B-Instruct",
    messages=[
        {"role": "user", "content": f"Summarize this document:\n\n{document}"}
    ],
    max_tokens=2000
)

क्वांटाइज़ेशन

Ollama के साथ GGUF

# 4-बिट क्वांटाइज़्ड
ollama pull qwen2.5:7b-instruct-q4_K_M
ollama pull qwen2.5:72b-instruct-q4_K_M   # 72B इन 4-बिट (~48GB)

# 8-बिट क्वान्टाइज़्ड
ollama pull qwen2.5:7b-instruct-q8_0

# Coder वेरिएंट्स
ollama pull qwen2.5-coder:32b-instruct-q4_K_M

vLLM के साथ AWQ

python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-72B-Instruct-AWQ \
    --quantization awq \
    --tensor-parallel-size 2

GGUF के साथ llama.cpp

# GGUF डाउनलोड करें
wget https://huggingface.co/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf

# सर्वर चलाएँ
./llama-server -m qwen2.5-7b-instruct-q4_k_m.gguf \
    --host 0.0.0.0 \
    --port 8080 \
    -ngl 35

मल्टी-GPU सेटअप

टेंसर पैरालेलिज़्म

# 72B 4 GPUs पर
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-72B-Instruct \
    --tensor-parallel-size 4 \
    --max-model-len 32768

# 32B 2 GPUs पर
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-32B-Instruct \
    --tensor-parallel-size 2

# Coder-32B 2 GPUs पर
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-Coder-32B-Instruct \
    --tensor-parallel-size 2 \
    --max-model-len 16384

प्रदर्शन

थ्रूपुट (टोकन/सेकंड)

मॉडल

RTX 3090

RTX 4090

A100 40GB

A100 80GB

Qwen2.5-0.5B

250

320

380

400

Qwen2.5-3B

150

200

250

280

Qwen2.5-7B

100

130

150

Qwen2.5-7B Q4

110

140

180

200

Qwen2.5-14B

Qwen2.5-32B

Qwen2.5-72B

20 (2x)

40 (2x)

Qwen2.5-72B Q4

55 (2x)

Qwen2.5-Coder-32B

पहले टोकन तक का समय (TTFT)

मॉडल

RTX 4090

A100 40GB

A100 80GB

60ms

40ms

35ms

14B

120ms

80ms

60ms

32B

200ms

140ms

72B

400ms (2x)

280ms (2x)

संदर्भ लंबाई बनाम VRAM (7B)

संदर्भ

FP16

16GB

10GB

6GB

32K

24GB

16GB

10GB

64K

40GB

26GB

16GB

128K

72GB

48GB

28GB

बेंचमार्क्स

मॉडल

MMLU

HumanEval

GSM8K

गणित

LiveCodeBench

Qwen2.5-7B

74.2%

75.6%

85.4%

55.2%

42.1%

Qwen2.5-14B

79.7%

81.1%

89.5%

65.8%

51.3%

Qwen2.5-32B

83.3%

84.2%

91.2%

72.1%

60.7%

Qwen2.5-72B

86.1%

86.2%

93.2%

79.5%

67.4%

Qwen2.5-Coder-7B

72.8%

88.4%

86.1%

58.4%

64.2%

Qwen2.5-Coder-32B

83.1%

92.7%

92.3%

76.8%

78.5%

Docker Compose

version: '3.8'

services:
  qwen:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - ~/.cache/huggingface:/root/.cache/huggingface
    command: >
      --model Qwen/Qwen2.5-7B-Instruct
      --host 0.0.0.0
      --port 8000
      --gpu-memory-utilization 0.9
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें:

GPU

घंटात्मक दर

उत्तम हेतु

RTX 3090 24GB

~$0.06

7B मॉडल्स

RTX 4090 24GB

~$0.10

7B-14B मॉडल

A100 40GB

~$0.17

14B-32B मॉडल

A100 80GB

~$0.25

32B मॉडल, Coder-32B

2x A100 80GB

~$0.50

72B मॉडल

4x A100 80GB

~$1.00

72B अधिकतम संदर्भ

कीमतें प्रदाता के अनुसार विभिन्न होती हैं। जाँच करें CLORE.AI मार्केटप्लेस वर्तमान दरों के लिए।

पैसे बचाएँ:

उपयोग करें स्पॉट लचीले वर्कलोड के लिए बाजार
भुगतान करें CLORE टोकन के साथ
परीक्षण के लिए छोटे मॉडलों (7B) से शुरू करें

समस्याओं का निवारण

आउट ऑफ़ मेमोरी

# कॉन्टेक्स्ट घटाएँ
--max-model-len 8192

# मेमोरी ऑप्टिमाइज़ेशन सक्षम करें
--gpu-memory-utilization 0.85

# क्वांटाइज़्ड मॉडल का उपयोग करें
ollama pull qwen2.5:7b-instruct-q4_K_M

धीमा जनरेशन

# फ्लैश अटेंशन सक्षम करें
pip install flash-attn

# बेहतर थ्रूपुट के लिए vLLM का उपयोग करें
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-7B-Instruct \
    --enable-prefix-caching

चीनी अक्षर प्रदर्शन

# UTF-8 एन्कोडिंग सुनिश्चित करें
पूर्ण कार्यशील उदाहरण
sys.stdout.reconfigure(encoding='utf-8')

मॉडल नहीं मिला

# मॉडल नाम जांचें
huggingface-cli search Qwen/Qwen2.5

# सामान्य नाम:
# Qwen/Qwen2.5-7B-Instruct
# Qwen/Qwen2.5-72B-Instruct       ← नया
# Qwen/Qwen2.5-Coder-7B-Instruct
# Qwen/Qwen2.5-Coder-32B-Instruct ← नया
# Qwen/Qwen2.5-Math-7B-Instruct

Qwen2.5 बनाम अन्य

फ़ीचर

Qwen2.5-7B

Qwen2.5-72B

Llama 3.1 70B

GPT-4o

संदर्भ

128K

बहुभाषी

उत्कृष्ट

अच्छा

उत्कृष्ट

कोड

उत्कृष्ट

अच्छा

उत्कृष्ट

गणित

उत्कृष्ट

अच्छा

उत्कृष्ट

चीनी

उत्कृष्ट

खराब

अच्छा

लाइसेंस

Apache 2.0

Llama 3.1

प्रोप्रायटरी

लागत

मुफ्त

पेड API

Qwen2.5 का उपयोग तब करें जब:

चीनी भाषा समर्थन आवश्यक हो
गणित/कोड कार्य प्राथमिकता हों
लंबा संदर्भ आवश्यक हो
Apache 2.0 लाइसेंस चाहिए
सबसे अच्छा ओपन-सोर्स कोड मॉडल चाहिए (Coder-32B)

अगले कदम

vLLM - प्रोडक्शन परिनियोजन
Ollama - आसान लोकल सेटअप
DeepSeek-V3 - बड़ा रीजनिंग मॉडल
DeepSeek-R1 - ओपन-सोर्स रीजनिंग मॉडल
LLM को फाइन-ट्यून करें - कस्टम प्रशिक्षण

PreviousDeepSeek-R1 तर्क मॉडल NextCodeLlama

Last updated 21 days ago

Was this helpful?

hashtagक्यों Qwen2.5?

hashtagCLORE.AI पर त्वरित डिप्लॉय

hashtagअपनी सेवा तक पहुँचना

hashtagजांचें कि यह काम कर रहा है

hashtagQwen3 रीजनिंग मोड

hashtagमॉडल वेरिएंट

hashtagबेस मॉडल

hashtagविशेषीकृत वेरिएंट्स

hashtagहार्डवेयर आवश्यकताएँ

hashtagइंस्टॉलेशन

hashtagvLLM का उपयोग (अनुशंसित)

hashtagOllama का उपयोग करना

hashtagTransformers का उपयोग करना

hashtagAPI उपयोग

hashtagOpenAI-समकक्ष API

hashtagस्ट्रीमिंग

hashtagcURL

hashtagQwen2.5-72B-Instruct

hashtagvLLM (मल्टी-GPU) के माध्यम से चलाना

hashtagOllama के माध्यम से चलाना

hashtagPython उदाहरण

hashtagQwen2.5-Coder-32B-Instruct

hashtagvLLM के माध्यम से चलाना

hashtagOllama के माध्यम से चलाना

hashtagकोड जनरेशन उदाहरण

hashtagQwen2.5-Coder

hashtagQwen2.5-Math

hashtagबहुभाषी समर्थन

hashtagलंबा संदर्भ (128K)

hashtagक्वांटाइज़ेशन

hashtagOllama के साथ GGUF

hashtagvLLM के साथ AWQ

hashtagGGUF के साथ llama.cpp

hashtagमल्टी-GPU सेटअप

hashtagटेंसर पैरालेलिज़्म

hashtagप्रदर्शन

hashtagथ्रूपुट (टोकन/सेकंड)

hashtagपहले टोकन तक का समय (TTFT)

hashtagसंदर्भ लंबाई बनाम VRAM (7B)

hashtagबेंचमार्क्स

hashtagDocker Compose

hashtagलागत अनुमान

hashtagसमस्याओं का निवारण

hashtagआउट ऑफ़ मेमोरी

hashtagधीमा जनरेशन

hashtagचीनी अक्षर प्रदर्शन

hashtagमॉडल नहीं मिला

hashtagQwen2.5 बनाम अन्य

hashtagअगले कदम

क्यों Qwen2.5?

CLORE.AI पर त्वरित डिप्लॉय

अपनी सेवा तक पहुँचना

जांचें कि यह काम कर रहा है

Qwen3 रीजनिंग मोड

मॉडल वेरिएंट

बेस मॉडल

विशेषीकृत वेरिएंट्स

हार्डवेयर आवश्यकताएँ

इंस्टॉलेशन

vLLM का उपयोग (अनुशंसित)

Ollama का उपयोग करना

Transformers का उपयोग करना

API उपयोग

OpenAI-समकक्ष API

स्ट्रीमिंग

cURL

Qwen2.5-72B-Instruct

vLLM (मल्टी-GPU) के माध्यम से चलाना

Ollama के माध्यम से चलाना

Python उदाहरण

Qwen2.5-Coder-32B-Instruct

vLLM के माध्यम से चलाना

Ollama के माध्यम से चलाना

कोड जनरेशन उदाहरण

Qwen2.5-Coder

Qwen2.5-Math

बहुभाषी समर्थन

लंबा संदर्भ (128K)

क्वांटाइज़ेशन

Ollama के साथ GGUF

vLLM के साथ AWQ

GGUF के साथ llama.cpp

मल्टी-GPU सेटअप

टेंसर पैरालेलिज़्म

प्रदर्शन

थ्रूपुट (टोकन/सेकंड)

पहले टोकन तक का समय (TTFT)

संदर्भ लंबाई बनाम VRAM (7B)

बेंचमार्क्स

Docker Compose

लागत अनुमान

समस्याओं का निवारण

आउट ऑफ़ मेमोरी

धीमा जनरेशन

चीनी अक्षर प्रदर्शन

मॉडल नहीं मिला

Qwen2.5 बनाम अन्य

अगले कदम