Qwen2.5

Exécutez les LLM multilingues Qwen2.5 d'Alibaba sur les GPU Clore.ai

Exécutez la famille de modèles Qwen2.5 d'Alibaba - de puissants LLM multilingues avec d'excellentes capacités en code et en mathématiques sur les GPU CLORE.AI.

circle-check

Pourquoi Qwen2.5 ?

  • Tailles polyvalentes - 0,5B à 72B paramètres

  • Multilingue - 29 langues dont le chinois

  • Contexte long - Jusqu'à 128K tokens

  • Variantes spécialisées - Éditions Coder, Math

  • Open source - Licence Apache 2.0

Déploiement rapide sur CLORE.AI

Image Docker :

vllm/vllm-openai:latest

Ports :

22/tcp
8000/http

Commande :

python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-7B-Instruct \
    --host 0.0.0.0 \
    --port 8000

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à la Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Vérifiez que cela fonctionne

circle-exclamation

Mode de raisonnement Qwen3

circle-info

Nouveau dans Qwen3 : Certains modèles Qwen3 prennent en charge un mode de raisonnement qui montre le processus de réflexion du modèle dans <think> des balises avant la réponse finale.

Lors de l'utilisation des modèles Qwen3 via vLLM, les réponses peuvent inclure le raisonnement :

Pour utiliser Qwen3 avec raisonnement :

Variantes de modèle

Modèles de base

Modèle
Paramètres
VRAM (FP16)
Contexte
Remarques

Qwen2.5-0.5B

0,5B

2Go

32K

Edge/test

Qwen2.5-1.5B

1,5B

4 Go

32K

Très léger

Qwen2.5-3B

3B

8 Go

32K

Économique

Qwen2.5-7B

7B

16Go

128K

Équilibré

Qwen2.5-14B

14B

32Go

128K

Haute qualité

Qwen2.5-32B

32B

70Go

128K

Très haute qualité

Qwen2.5-72B

72B

150Go

128K

Meilleure qualité

Qwen2.5-72B-Instruct

72B

150Go

128K

Ajusté pour chat/instructions

Variantes spécialisées

Modèle
Concentration
Idéal pour
VRAM (FP16)

Qwen2.5-Coder-7B-Instruct

Code

Programmation, débogage

16Go

Qwen2.5-Coder-14B-Instruct

Code

Tâches de code complexes

32Go

Qwen2.5-Coder-32B-Instruct

Code

Meilleur modèle pour le code

70Go

Qwen2.5-Math-7B-Instruct

Mathématiques

Calculs, démonstrations

16Go

Qwen2.5-Math-72B-Instruct

Mathématiques

Mathématiques de niveau recherche

150Go

Qwen2.5-Instruct

Chat

Assistant général

varie

Exigences matérielles

Modèle
GPU minimum
Recommandé
VRAM (Q4)

0,5B-3B

RTX 3060 12GB

RTX 3080

2-6Go

7B

RTX 3090 24GB

RTX 4090

6 Go

14B

A100 40GB

A100 80GB

12Go

32B

A100 80GB

2x A100 40Go

22Go

72B

2x A100 80Go

4x A100 80GB

48Go

Coder-32B

A100 80GB

2x A100 40Go

22Go

Installation

Utilisation de vLLM (recommandé)

Utilisation d'Ollama

Utilisation de Transformers

Utilisation de l'API

API compatible OpenAI

Streaming

cURL

Qwen2.5-72B-Instruct

Le modèle phare Qwen2.5 — le plus grand et le plus performant de la famille. Il rivalise avec GPT-4 sur de nombreux benchmarks et est entièrement open-source sous licence Apache 2.0.

Exécution via vLLM (Multi-GPU)

Exécution via Ollama

Exemple Python

Qwen2.5-Coder-32B-Instruct

Le meilleur modèle open-source pour le code disponible. Qwen2.5-Coder-32B-Instruct égalise ou dépasse GPT-4o sur de nombreux benchmarks de codage, prenant en charge plus de 40 langages de programmation.

Exécution via vLLM

Exécution via Ollama

Exemples de génération de code

Qwen2.5-Coder

Optimisé pour la génération de code :

Qwen2.5-Math

Spécialisé pour le raisonnement mathématique :

Support multilingue

Qwen2.5 prend en charge 29 langues :

Contexte long (128K)

Quantification

GGUF avec Ollama

AWQ avec vLLM

GGUF avec llama.cpp

Configuration Multi-GPU

Parallélisme tensoriel

Performances

Débit (tokens/sec)

Modèle
RTX 3090
RTX 4090
A100 40GB
A100 80GB

Qwen2.5-0.5B

250

320

380

400

Qwen2.5-3B

150

200

250

280

Qwen2.5-7B

75

100

130

150

Qwen2.5-7B Q4

110

140

180

200

Qwen2.5-14B

-

55

70

85

Qwen2.5-32B

-

-

35

50

Qwen2.5-72B

-

-

20 (2x)

40 (2x)

Qwen2.5-72B Q4

-

-

-

55 (2x)

Qwen2.5-Coder-32B

-

-

32

48

Temps jusqu'au premier token (TTFT)

Modèle
RTX 4090
A100 40GB
A100 80GB

7B

60ms

40ms

35ms

14B

120ms

80 ms

60ms

32B

-

200ms

140ms

72B

-

400ms (2x)

280ms (2x)

Longueur de contexte vs VRAM (7B)

Contexte
FP16
Q8
Q4

8K

16Go

10Go

6 Go

32K

24 Go

16Go

10Go

64K

40Go

26 Go

16Go

128K

72Go

48Go

28 Go

Benchmarks

Modèle
MMLU
HumanEval
GSM8K
MATH
LiveCodeBench

Qwen2.5-7B

74.2%

75.6%

85.4%

55.2%

42.1%

Qwen2.5-14B

79.7%

81.1%

89.5%

65.8%

51.3%

Qwen2.5-32B

83.3%

84.2%

91.2%

72.1%

60.7%

Qwen2.5-72B

86.1%

86.2%

93.2%

79.5%

67.4%

Qwen2.5-Coder-7B

72.8%

88.4%

86.1%

58.4%

64.2%

Qwen2.5-Coder-32B

83.1%

92.7%

92.3%

76.8%

78.5%

Docker Compose

Estimation des coûts

Tarifs typiques du marketplace CLORE.AI :

GPU
Tarif horaire
Idéal pour

RTX 3090 24GB

~$0.06

modèles 7B

RTX 4090 24GB

~$0.10

Modèles 7B-14B

A100 40GB

~$0.17

Modèles 14B-32B

A100 80GB

~$0.25

Modèles 32B, Coder-32B

2x A100 80Go

~$0.50

Modèles 72B

4x A100 80GB

~$1.00

Contexte max 72B

Les prix varient selon le fournisseur. Vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Économisez de l'argent :

  • Utilisez Spot marché pour charges de travail flexibles

  • Payer avec CLORE jetons

  • Commencez par des modèles plus petits (7B) pour les tests

Dépannage

Mémoire insuffisante

Génération lente

Affichage des caractères chinois

Modèle introuvable

Qwen2.5 vs autres

Fonction
Qwen2.5-7B
Qwen2.5-72B
Llama 3.1 70B
GPT-4o

Contexte

128K

128K

128K

128K

Multilingue

Excellent

Excellent

Bon

Excellent

Code

Excellent

Excellent

Bon

Excellent

Mathématiques

Excellent

Excellent

Bon

Excellent

Chinois

Excellent

Excellent

Faible

Bon

Licence

Apache 2.0

Apache 2.0

Llama 3.1

Propriétaire

Coût

Gratuit

Gratuit

Gratuit

API payante

Utilisez Qwen2.5 lorsque :

  • Un support du chinois est nécessaire

  • Les tâches de mathématiques/code sont prioritaires

  • Un long contexte est requis

  • Vous voulez la licence Apache 2.0

  • Besoin du meilleur modèle open-source pour le code (Coder-32B)

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?