Qwen2.5
Clore.ai GPUs पर Alibaba के Qwen2.5 बहुभाषी LLMs चलाएँ
क्यों Qwen2.5?
CLORE.AI पर त्वरित डिप्लॉय
vllm/vllm-openai:latest22/tcp
8000/httppython -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-7B-Instruct \
--host 0.0.0.0 \
--port 8000अपनी सेवा तक पहुँचना
जांचें कि यह काम कर रहा है
Qwen3 रीजनिंग मोड
मॉडल वेरिएंट
बेस मॉडल
मॉडल
पैरामीटर
VRAM (FP16)
संदर्भ
नोट्स
विशेषीकृत वेरिएंट्स
मॉडल
फोकस
उत्तम हेतु
VRAM (FP16)
हार्डवेयर आवश्यकताएँ
मॉडल
न्यूनतम GPU
अनुशंसित
VRAM (Q4)
इंस्टॉलेशन
vLLM का उपयोग (अनुशंसित)
Ollama का उपयोग करना
Transformers का उपयोग करना
API उपयोग
OpenAI-समकक्ष API
स्ट्रीमिंग
cURL
Qwen2.5-72B-Instruct
vLLM (मल्टी-GPU) के माध्यम से चलाना
Ollama के माध्यम से चलाना
Python उदाहरण
Qwen2.5-Coder-32B-Instruct
vLLM के माध्यम से चलाना
Ollama के माध्यम से चलाना
कोड जनरेशन उदाहरण
Qwen2.5-Coder
Qwen2.5-Math
बहुभाषी समर्थन
लंबा संदर्भ (128K)
क्वांटाइज़ेशन
Ollama के साथ GGUF
vLLM के साथ AWQ
GGUF के साथ llama.cpp
मल्टी-GPU सेटअप
टेंसर पैरालेलिज़्म
प्रदर्शन
थ्रूपुट (टोकन/सेकंड)
मॉडल
RTX 3090
RTX 4090
A100 40GB
A100 80GB
पहले टोकन तक का समय (TTFT)
मॉडल
RTX 4090
A100 40GB
A100 80GB
संदर्भ लंबाई बनाम VRAM (7B)
संदर्भ
FP16
Q8
Q4
बेंचमार्क्स
मॉडल
MMLU
HumanEval
GSM8K
गणित
LiveCodeBench
Docker Compose
लागत अनुमान
GPU
घंटात्मक दर
उत्तम हेतु
समस्याओं का निवारण
आउट ऑफ़ मेमोरी
धीमा जनरेशन
चीनी अक्षर प्रदर्शन
मॉडल नहीं मिला
Qwen2.5 बनाम अन्य
फ़ीचर
Qwen2.5-7B
Qwen2.5-72B
Llama 3.1 70B
GPT-4o
अगले कदम
Last updated
Was this helpful?