Qwen2.5

Führen Sie Alibabas Qwen2.5 mehrsprachige LLMs auf Clore.ai GPUs aus

Führen Sie Alibabas Qwen2.5-Modellfamilie aus - leistungsstarke mehrsprachige LLMs mit hervorragenden Code- und Mathematikfähigkeiten auf CLORE.AI-GPUs.

circle-check

Warum Qwen2.5?

  • Vielseitige Größen - 0,5B bis 72B Parameter

  • Mehrsprachig - 29 Sprachen einschließlich Chinesisch

  • Langer Kontext - Bis zu 128K Token

  • Spezialisierte Varianten - Coder-, Math-Editionen

  • Open Source - Apache-2.0-Lizenz

Schnelle Bereitstellung auf CLORE.AI

Docker-Image:

vllm/vllm-openai:latest

Ports:

22/tcp
8000/http

Befehl:

python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-7B-Instruct \
    --host 0.0.0.0 \
    --port 8000

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Überprüfen, ob es funktioniert

circle-exclamation

Qwen3 Reasoning-Modus

circle-info

Neu in Qwen3: Einige Qwen3-Modelle unterstützen einen Reasoning-Modus, der den Denkprozess des Modells in <think> Tags vor der endgültigen Antwort anzeigt.

Bei der Verwendung von Qwen3-Modellen über vLLM können Antworten Reasoning enthalten:

Um Qwen3 mit Reasoning zu verwenden:

Modellvarianten

Basis-Modelle

Modell
Parameter
VRAM (FP16)
Kontext
Hinweise

Qwen2.5-0.5B

0.5B

2GB

32K

Edge/Tests

Qwen2.5-1.5B

1.5B

4GB

32K

Sehr leicht

Qwen2.5-3B

3B

8GB

32K

Budget

Qwen2.5-7B

7B

16GB

128K

Ausgeglichen

Qwen2.5-14B

14B

32GB

128K

Hohe Qualität

Qwen2.5-32B

32B

70GB

128K

Sehr hohe Qualität

Qwen2.5-72B

72B

150GB

128K

Beste Qualität

Qwen2.5-72B-Instruct

72B

150GB

128K

Chat-/Instruct-Feinabgestimmt

Spezialisierte Varianten

Modell
Fokus
Am besten geeignet für
VRAM (FP16)

Qwen2.5-Coder-7B-Instruct

Code

Programmierung, Debugging

16GB

Qwen2.5-Coder-14B-Instruct

Code

Komplexe Code-Aufgaben

32GB

Qwen2.5-Coder-32B-Instruct

Code

Bestes Codemodell

70GB

Qwen2.5-Math-7B-Instruct

Mathematik

Berechnungen, Beweise

16GB

Qwen2.5-Math-72B-Instruct

Mathematik

Mathematik auf Forschungsniveau

150GB

Qwen2.5-Instruct

Chat

Allgemeiner Assistent

variiert

Hardware-Anforderungen

Modell
Minimale GPU
Empfohlen
VRAM (Q4)

0,5B-3B

RTX 3060 12GB

RTX 3080

2–6GB

7B

RTX 3090 24GB

RTX 4090

6GB

14B

A100 40GB

A100 80GB

12GB

32B

A100 80GB

2x A100 40GB

22GB

72B

2x A100 80GB

4x A100 80GB

48GB

Coder-32B

A100 80GB

2x A100 40GB

22GB

Installation

Verwendung von vLLM (empfohlen)

Verwendung von Ollama

Verwendung von Transformers

API-Nutzung

OpenAI‑kompatible API

Streaming

cURL

Qwen2.5-72B-Instruct

Das Flaggschiff-Modell Qwen2.5 — das größte und leistungsfähigste der Familie. Es konkurriert in vielen Benchmarks mit GPT-4 und ist vollständig Open Source unter Apache 2.0.

Ausführung über vLLM (Multi-GPU)

Ausführung über Ollama

Python-Beispiel

Qwen2.5-Coder-32B-Instruct

Das beste Open-Source-Codemodell, das verfügbar ist. Qwen2.5-Coder-32B-Instruct erreicht in vielen Coding-Benchmarks das Niveau von GPT-4o oder übertrifft es und unterstützt über 40 Programmiersprachen.

Ausführung über vLLM

Ausführung über Ollama

Beispiele zur Codegenerierung

Qwen2.5-Coder

Optimiert für Codegenerierung:

Qwen2.5-Math

Spezialisiert für mathematisches Denken:

Mehrsprachige Unterstützung

Qwen2.5 unterstützt 29 Sprachen:

Langer Kontext (128K)

Quantisierung

GGUF mit Ollama

AWQ mit vLLM

GGUF mit llama.cpp

Multi-GPU-Setup

Tensor-Parallele Verarbeitung

Leistung

Durchsatz (Tokens/Sek)

Modell
RTX 3090
RTX 4090
A100 40GB
A100 80GB

Qwen2.5-0.5B

250

320

380

400

Qwen2.5-3B

150

200

250

280

Qwen2.5-7B

75

100

130

150

Qwen2.5-7B Q4

110

140

180

200

Qwen2.5-14B

-

55

70

85

Qwen2.5-32B

-

-

35

50

Qwen2.5-72B

-

-

20 (2x)

40 (2x)

Qwen2.5-72B Q4

-

-

-

55 (2x)

Qwen2.5-Coder-32B

-

-

32

48

Zeit bis zum ersten Token (TTFT)

Modell
RTX 4090
A100 40GB
A100 80GB

7B

60ms

40ms

35ms

14B

120ms

80ms

60ms

32B

-

200ms

140ms

72B

-

400ms (2x)

280ms (2x)

Kontextlänge vs. VRAM (7B)

Kontext
FP16
Q8
Q4

8K

16GB

10GB

6GB

32K

24GB

16GB

10GB

64K

40GB

26GB

16GB

128K

72GB

48GB

28GB

Benchmarks

Modell
MMLU
HumanEval
GSM8K
MATH
LiveCodeBench

Qwen2.5-7B

74.2%

75.6%

85.4%

55.2%

42.1%

Qwen2.5-14B

79.7%

81.1%

89.5%

65.8%

51.3%

Qwen2.5-32B

83.3%

84.2%

91.2%

72.1%

60.7%

Qwen2.5-72B

86.1%

86.2%

93.2%

79.5%

67.4%

Qwen2.5-Coder-7B

72.8%

88.4%

86.1%

58.4%

64.2%

Qwen2.5-Coder-32B

83.1%

92.7%

92.3%

76.8%

78.5%

Docker Compose

Kostenabschätzung

Typische CLORE.AI-Marktplatzpreise:

GPU
Stundensatz
Am besten geeignet für

RTX 3090 24GB

~$0.06

7B-Modelle

RTX 4090 24GB

~$0.10

7B-14B Modelle

A100 40GB

~$0.17

14B-32B Modelle

A100 80GB

~$0.25

32B-Modelle, Coder-32B

2x A100 80GB

~$0.50

72B-Modelle

4x A100 80GB

~$1.00

72B maximaler Kontext

Preise variieren je nach Anbieter. Prüfe CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads

  • Bezahlen mit CLORE Token

  • Beginnen Sie mit kleineren Modellen (7B) zum Testen

Fehlerbehebung

Kein Speicher mehr

Langsame Generierung

Anzeige chinesischer Zeichen

Modell nicht gefunden

Qwen2.5 vs. Andere

Funktion
Qwen2.5-7B
Qwen2.5-72B
Llama 3.1 70B
GPT-4o

Kontext

128K

128K

128K

128K

Mehrsprachig

Ausgezeichnet

Ausgezeichnet

Gut

Ausgezeichnet

Code

Ausgezeichnet

Ausgezeichnet

Gut

Ausgezeichnet

Mathematik

Ausgezeichnet

Ausgezeichnet

Gut

Ausgezeichnet

Chinesisch

Ausgezeichnet

Ausgezeichnet

Schlecht

Gut

Lizenz

Apache 2.0

Apache 2.0

Llama 3.1

Proprietär

Kosten

Kostenlos

Kostenlos

Kostenlos

Bezahlte API

Verwenden Sie Qwen2.5, wenn:

  • Unterstützung der chinesischen Sprache erforderlich ist

  • Mathematik-/Code-Aufgaben Priorität haben

  • Ein langer Kontext erforderlich ist

  • Sie die Apache-2.0-Lizenz wünschen

  • Sie das beste Open-Source-Codemodell benötigen (Coder-32B)

Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?