Qwen2.5
Führen Sie Alibabas Qwen2.5 mehrsprachige LLMs auf Clore.ai GPUs aus
Warum Qwen2.5?
Schnelle Bereitstellung auf CLORE.AI
vllm/vllm-openai:latest22/tcp
8000/httppython -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-7B-Instruct \
--host 0.0.0.0 \
--port 8000Zugriff auf Ihren Dienst
Überprüfen, ob es funktioniert
Qwen3 Reasoning-Modus
Modellvarianten
Basis-Modelle
Modell
Parameter
VRAM (FP16)
Kontext
Hinweise
Spezialisierte Varianten
Modell
Fokus
Am besten geeignet für
VRAM (FP16)
Hardware-Anforderungen
Modell
Minimale GPU
Empfohlen
VRAM (Q4)
Installation
Verwendung von vLLM (empfohlen)
Verwendung von Ollama
Verwendung von Transformers
API-Nutzung
OpenAI‑kompatible API
Streaming
cURL
Qwen2.5-72B-Instruct
Ausführung über vLLM (Multi-GPU)
Ausführung über Ollama
Python-Beispiel
Qwen2.5-Coder-32B-Instruct
Ausführung über vLLM
Ausführung über Ollama
Beispiele zur Codegenerierung
Qwen2.5-Coder
Qwen2.5-Math
Mehrsprachige Unterstützung
Langer Kontext (128K)
Quantisierung
GGUF mit Ollama
AWQ mit vLLM
GGUF mit llama.cpp
Multi-GPU-Setup
Tensor-Parallele Verarbeitung
Leistung
Durchsatz (Tokens/Sek)
Modell
RTX 3090
RTX 4090
A100 40GB
A100 80GB
Zeit bis zum ersten Token (TTFT)
Modell
RTX 4090
A100 40GB
A100 80GB
Kontextlänge vs. VRAM (7B)
Kontext
FP16
Q8
Q4
Benchmarks
Modell
MMLU
HumanEval
GSM8K
MATH
LiveCodeBench
Docker Compose
Kostenabschätzung
GPU
Stundensatz
Am besten geeignet für
Fehlerbehebung
Kein Speicher mehr
Langsame Generierung
Anzeige chinesischer Zeichen
Modell nicht gefunden
Qwen2.5 vs. Andere
Funktion
Qwen2.5-7B
Qwen2.5-72B
Llama 3.1 70B
GPT-4o
Nächste Schritte
Zuletzt aktualisiert
War das hilfreich?