Qwen2.5
Exécutez les LLM multilingues Qwen2.5 d'Alibaba sur les GPU Clore.ai
Pourquoi Qwen2.5 ?
Déploiement rapide sur CLORE.AI
vllm/vllm-openai:latest22/tcp
8000/httppython -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-7B-Instruct \
--host 0.0.0.0 \
--port 8000Accéder à votre service
Vérifiez que cela fonctionne
Mode de raisonnement Qwen3
Variantes de modèle
Modèles de base
Modèle
Paramètres
VRAM (FP16)
Contexte
Remarques
Variantes spécialisées
Modèle
Concentration
Idéal pour
VRAM (FP16)
Exigences matérielles
Modèle
GPU minimum
Recommandé
VRAM (Q4)
Installation
Utilisation de vLLM (recommandé)
Utilisation d'Ollama
Utilisation de Transformers
Utilisation de l'API
API compatible OpenAI
Streaming
cURL
Qwen2.5-72B-Instruct
Exécution via vLLM (Multi-GPU)
Exécution via Ollama
Exemple Python
Qwen2.5-Coder-32B-Instruct
Exécution via vLLM
Exécution via Ollama
Exemples de génération de code
Qwen2.5-Coder
Qwen2.5-Math
Support multilingue
Contexte long (128K)
Quantification
GGUF avec Ollama
AWQ avec vLLM
GGUF avec llama.cpp
Configuration Multi-GPU
Parallélisme tensoriel
Performances
Débit (tokens/sec)
Modèle
RTX 3090
RTX 4090
A100 40GB
A100 80GB
Temps jusqu'au premier token (TTFT)
Modèle
RTX 4090
A100 40GB
A100 80GB
Longueur de contexte vs VRAM (7B)
Contexte
FP16
Q8
Q4
Benchmarks
Modèle
MMLU
HumanEval
GSM8K
MATH
LiveCodeBench
Docker Compose
Estimation des coûts
GPU
Tarif horaire
Idéal pour
Dépannage
Mémoire insuffisante
Génération lente
Affichage des caractères chinois
Modèle introuvable
Qwen2.5 vs autres
Fonction
Qwen2.5-7B
Qwen2.5-72B
Llama 3.1 70B
GPT-4o
Prochaines étapes
Mis à jour
Ce contenu vous a-t-il été utile ?