Qwen2.5
Ejecuta los LLMs multilingües Qwen2.5 de Alibaba en GPUs de Clore.ai
¿Por qué Qwen2.5?
Despliegue rápido en CLORE.AI
vllm/vllm-openai:latest22/tcp
8000/httppython -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-7B-Instruct \
--host 0.0.0.0 \
--port 8000Accediendo a tu servicio
Verificar que funciona
Modo de razonamiento Qwen3
Variantes de modelo
Modelos base
Modelo
Parámetros
VRAM (FP16)
Contexto
Notas
Variantes especializadas
Modelo
Enfoque
Mejor para
VRAM (FP16)
Requisitos de hardware
Modelo
GPU mínima
Recomendado
VRAM (Q4)
Instalación
Usando vLLM (Recomendado)
Usando Ollama
Usando Transformers
Uso de la API
API compatible con OpenAI
Streaming
cURL
Qwen2.5-72B-Instruct
Ejecución vía vLLM (Multi-GPU)
Ejecución vía Ollama
Ejemplo en Python
Qwen2.5-Coder-32B-Instruct
Ejecución vía vLLM
Ejecución vía Ollama
Ejemplos de generación de código
Qwen2.5-Coder
Qwen2.5-Math
Soporte multilingüe
Contexto largo (128K)
Cuantización
GGUF con Ollama
AWQ con vLLM
GGUF con llama.cpp
Configuración multi-GPU
Paralelismo tensorial
Rendimiento
Rendimiento (tokens/seg)
Modelo
RTX 3090
RTX 4090
A100 40GB
A100 80GB
Tiempo hasta el primer token (TTFT)
Modelo
RTX 4090
A100 40GB
A100 80GB
Longitud de contexto vs VRAM (7B)
Contexto
FP16
Q8
Q4
Benchmarks
Modelo
MMLU
HumanEval
GSM8K
MATES
LiveCodeBench
Docker Compose
Estimación de costos
GPU
Tarifa por hora
Mejor para
Solución de problemas
Memoria insuficiente
Generación lenta
Visualización de caracteres chinos
Modelo no encontrado
Qwen2.5 vs Otros
Función
Qwen2.5-7B
Qwen2.5-72B
Llama 3.1 70B
GPT-4o
Próximos pasos
Última actualización
¿Te fue útil?