Qwen2.5

Ejecuta los LLMs multilingües Qwen2.5 de Alibaba en GPUs de Clore.ai

Ejecute la familia de modelos Qwen2.5 de Alibaba: potentes LLM multilingües con excelentes capacidades de código y matemáticas en GPUs de CLORE.AI.

circle-check

¿Por qué Qwen2.5?

  • Tamaños versátiles - 0.5B a 72B parámetros

  • Multilingüe - 29 idiomas incluyendo chino

  • Contexto largo - Hasta 128K tokens

  • Variantes especializadas - Ediciones Coder, Math

  • Código abierto - Licencia Apache 2.0

Despliegue rápido en CLORE.AI

Imagen Docker:

vllm/vllm-openai:latest

Puertos:

22/tcp
8000/http

Comando:

python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-7B-Instruct \
    --host 0.0.0.0 \
    --port 8000

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Verificar que funciona

circle-exclamation

Modo de razonamiento Qwen3

circle-info

Novedades en Qwen3: Algunos modelos Qwen3 admiten un modo de razonamiento que muestra el proceso de pensamiento del modelo en <think> etiquetas antes de la respuesta final.

Al usar modelos Qwen3 a través de vLLM, las respuestas pueden incluir razonamiento:

Para usar Qwen3 con razonamiento:

Variantes de modelo

Modelos base

Modelo
Parámetros
VRAM (FP16)
Contexto
Notas

Qwen2.5-0.5B

0.5B

2GB

32K

Edge/pruebas

Qwen2.5-1.5B

1.5B

4GB

32K

Muy ligero

Qwen2.5-3B

3B

8GB

32K

Económico

Qwen2.5-7B

7B

16GB

128K

Equilibrado

Qwen2.5-14B

14B

32GB

128K

Alta calidad

Qwen2.5-32B

32B

70GB

128K

Calidad muy alta

Qwen2.5-72B

72B

150GB

128K

Mejor calidad

Qwen2.5-72B-Instruct

72B

150GB

128K

Ajustado para chat/instrucciones

Variantes especializadas

Modelo
Enfoque
Mejor para
VRAM (FP16)

Qwen2.5-Coder-7B-Instruct

Código

Programación, depuración

16GB

Qwen2.5-Coder-14B-Instruct

Código

Tareas de código complejas

32GB

Qwen2.5-Coder-32B-Instruct

Código

Mejor modelo para código

70GB

Qwen2.5-Math-7B-Instruct

Matemáticas

Cálculos, demostraciones

16GB

Qwen2.5-Math-72B-Instruct

Matemáticas

Matemáticas de nivel investigativo

150GB

Qwen2.5-Instruct

Chat

Asistente general

varía

Requisitos de hardware

Modelo
GPU mínima
Recomendado
VRAM (Q4)

0.5B-3B

RTX 3060 12GB

RTX 3080

2-6GB

7B

RTX 3090 24GB

RTX 4090

6GB

14B

A100 40GB

A100 80GB

12GB

32B

A100 80GB

2x A100 40GB

22GB

72B

2x A100 80GB

4x A100 80GB

48GB

Coder-32B

A100 80GB

2x A100 40GB

22GB

Instalación

Usando vLLM (Recomendado)

Usando Ollama

Usando Transformers

Uso de la API

API compatible con OpenAI

Streaming

cURL

Qwen2.5-72B-Instruct

El modelo insignia Qwen2.5 — el más grande y capaz de la familia. Compite con GPT-4 en muchos benchmarks y es completamente de código abierto bajo Apache 2.0.

Ejecución vía vLLM (Multi-GPU)

Ejecución vía Ollama

Ejemplo en Python

Qwen2.5-Coder-32B-Instruct

El mejor modelo de código de código abierto disponible. Qwen2.5-Coder-32B-Instruct iguala o supera a GPT-4o en muchos benchmarks de codificación, soportando más de 40 lenguajes de programación.

Ejecución vía vLLM

Ejecución vía Ollama

Ejemplos de generación de código

Qwen2.5-Coder

Optimizado para generación de código:

Qwen2.5-Math

Especializado para razonamiento matemático:

Soporte multilingüe

Qwen2.5 soporta 29 idiomas:

Contexto largo (128K)

Cuantización

GGUF con Ollama

AWQ con vLLM

GGUF con llama.cpp

Configuración multi-GPU

Paralelismo tensorial

Rendimiento

Rendimiento (tokens/seg)

Modelo
RTX 3090
RTX 4090
A100 40GB
A100 80GB

Qwen2.5-0.5B

250

320

380

400

Qwen2.5-3B

150

200

250

280

Qwen2.5-7B

75

100

130

150

Qwen2.5-7B Q4

110

140

180

200

Qwen2.5-14B

-

55

70

85

Qwen2.5-32B

-

-

35

50

Qwen2.5-72B

-

-

20 (2x)

40 (2x)

Qwen2.5-72B Q4

-

-

-

55 (2x)

Qwen2.5-Coder-32B

-

-

32

48

Tiempo hasta el primer token (TTFT)

Modelo
RTX 4090
A100 40GB
A100 80GB

7B

60ms

40ms

35ms

14B

120ms

80ms

60ms

32B

-

200ms

140ms

72B

-

400ms (2x)

280ms (2x)

Longitud de contexto vs VRAM (7B)

Contexto
FP16
Q8
Q4

8K

16GB

10GB

6GB

32K

24GB

16GB

10GB

64K

40GB

26GB

16GB

128K

72GB

48GB

28GB

Benchmarks

Modelo
MMLU
HumanEval
GSM8K
MATES
LiveCodeBench

Qwen2.5-7B

74.2%

75.6%

85.4%

55.2%

42.1%

Qwen2.5-14B

79.7%

81.1%

89.5%

65.8%

51.3%

Qwen2.5-32B

83.3%

84.2%

91.2%

72.1%

60.7%

Qwen2.5-72B

86.1%

86.2%

93.2%

79.5%

67.4%

Qwen2.5-Coder-7B

72.8%

88.4%

86.1%

58.4%

64.2%

Qwen2.5-Coder-32B

83.1%

92.7%

92.3%

76.8%

78.5%

Docker Compose

Estimación de costos

Tarifas típicas del mercado de CLORE.AI:

GPU
Tarifa por hora
Mejor para

RTX 3090 24GB

~$0.06

Modelos 7B

RTX 4090 24GB

~$0.10

Modelos 7B-14B

A100 40GB

~$0.17

Modelos 14B-32B

A100 80GB

~$0.25

Modelos 32B, Coder-32B

2x A100 80GB

~$0.50

Modelos 72B

4x A100 80GB

~$1.00

72B contexto máximo

Los precios varían según el proveedor. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot mercado para cargas de trabajo flexibles

  • Paga con CLORE tokens

  • Comience con modelos más pequeños (7B) para pruebas

Solución de problemas

Memoria insuficiente

Generación lenta

Visualización de caracteres chinos

Modelo no encontrado

Qwen2.5 vs Otros

Función
Qwen2.5-7B
Qwen2.5-72B
Llama 3.1 70B
GPT-4o

Contexto

128K

128K

128K

128K

Multilingüe

Excelente

Excelente

Bueno

Excelente

Código

Excelente

Excelente

Bueno

Excelente

Matemáticas

Excelente

Excelente

Bueno

Excelente

Chino

Excelente

Excelente

Pobre

Bueno

Licencia

Apache 2.0

Apache 2.0

Llama 3.1

Proprietario

Costo

Gratis

Gratis

Gratis

API de pago

Use Qwen2.5 cuando:

  • Se necesita soporte del idioma chino

  • Las tareas de matemáticas/código son prioridad

  • Se requiere contexto largo

  • Desee la licencia Apache 2.0

  • Necesite el mejor modelo de código de código abierto (Coder-32B)

Próximos pasos

Última actualización

¿Te fue útil?