Qwen2.5

在 Clore.ai GPU 上运行阿里巴巴的 Qwen2.5 多语种 LLM

在CLORE.AI GPU 上运行阿里巴巴的 Qwen2.5 系列模型——功能强大的多语言大模型,具备出色的代码和数学能力。

circle-check

为什么选择 Qwen2.5?

  • 多功能的规模 - 0.5B 到 72B 参数

  • 多语言 - 包含中文在内的 29 种语言

  • 长上下文 - 最多可达 128K 令牌

  • 专用变体 - Coder、Math 版本

  • 开源 - Apache 2.0 许可

在 CLORE.AI 上快速部署

Docker 镜像:

vllm/vllm-openai:latest

端口:

22/tcp
8000/http

命令:

python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-7B-Instruct \
    --host 0.0.0.0 \
    --port 8000

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

验证是否正常运行

circle-exclamation

Qwen3 推理模式

circle-info

Qwen3 的新特性: 一些 Qwen3 模型支持一种推理模式,显示模型在最终答案之前的思路,使用 <think> 标签。

通过 vLLM 使用 Qwen3 模型时,响应可能包含推理:

要使用带有推理的 Qwen3:

1024x1024

基础模型

A100
参数量
显存(FP16)
上下文
注意事项

Qwen2.5-0.5B

0.5B

2GB

32K

边缘/测试用

Qwen2.5-1.5B

1.5B

4GB

32K

非常轻量

Qwen2.5-3B

3B

8GB

32K

预算型

Qwen2.5-7B

7B

16GB

128K

平衡

Qwen2.5-14B

14B

32GB

128K

高质量

Qwen2.5-32B

32B

70GB

128K

非常高质量

Qwen2.5-72B

72B

150GB

128K

最佳质量

Qwen2.5-72B-Instruct

72B

150GB

128K

聊天/指令微调

专用变体

A100
侧重领域
最适合
显存(FP16)

Qwen2.5-Coder-7B-Instruct

代码

编程、调试

16GB

Qwen2.5-Coder-14B-Instruct

代码

复杂代码任务

32GB

Qwen2.5-Coder-32B-Instruct

代码

最佳代码模型

70GB

Qwen2.5-Math-7B-Instruct

数学

计算、证明

16GB

Qwen2.5-Math-72B-Instruct

数学

研究级数学

150GB

Qwen2.5-Instruct

对话

通用助理

各有不同

硬件要求

A100
最低 GPU
推荐
显存(Q4)

0.5B-3B

RTX 3060 12GB

RTX 3080

2-6GB

7B

RTX 3090 24GB

512x512

6GB

14B

按日费率

4 小时会话

12GB

32B

4 小时会话

2x A100 40GB

22GB

72B

2x A100 80GB

4x A100 80GB

48GB

Coder-32B

4 小时会话

2x A100 40GB

22GB

安装

使用 vLLM(推荐)

使用 Ollama

使用 Transformers

API 使用

兼容 OpenAI 的 API

流式传输

cURL

Qwen2.5-72B-Instruct

旗舰 Qwen2.5 模型 —— 该系列中最大且最有能力的模型。在许多基准上可与 GPT-4 竞争,并且在 Apache 2.0 下完全开源。

通过 vLLM 运行(多 GPU)

通过 Ollama 运行

Python 示例

Qwen2.5-Coder-32B-Instruct

可用的最佳开源代码模型。Qwen2.5-Coder-32B-Instruct 在许多代码基准上可与或超过 GPT-4o,支持 40+ 种编程语言。

通过 vLLM 运行

通过 Ollama 运行

代码生成示例

Qwen2.5-Coder

针对代码生成进行优化:

Qwen2.5-Math

针对数学推理的专用模型:

多语言支持

Qwen2.5 支持 29 种语言:

长上下文(128K)

量化

Ollama 的 GGUF

AWQ 与 vLLM

使用 llama.cpp 的 GGUF

多 GPU 设置

张量并行

background = Image.open("studio_bg.jpg")

吞吐量(tokens/秒)

A100
速度
512x512
按日费率
4 小时会话

Qwen2.5-0.5B

250

320

380

400

Qwen2.5-3B

150

200

250

280

Qwen2.5-7B

75

100

130

150

Qwen2.5-7B Q4

110

140

180

200

Qwen2.5-14B

-

55

70

85

Qwen2.5-32B

-

-

35

50

Qwen2.5-72B

-

-

20 (2x)

40 (2x)

Qwen2.5-72B Q4

-

-

-

55 (2x)

Qwen2.5-Coder-32B

-

-

32

48

首个标记时间(TTFT)

A100
512x512
按日费率
4 小时会话

7B

60ms

40ms

35ms

14B

120ms

80 毫秒

60ms

32B

-

200ms

140ms

72B

-

400ms (2x)

280ms (2x)

上下文长度 vs 显存(7B)

上下文
FP16
Q8
Q4

8K

16GB

10GB

6GB

32K

24GB

16GB

10GB

64K

40GB

26GB

16GB

128K

72GB

48GB

28GB

基准测试

A100
MMLU
HumanEval
GSM8K
数学
LiveCodeBench

Qwen2.5-7B

74.2%

75.6%

85.4%

55.2%

42.1%

Qwen2.5-14B

79.7%

81.1%

89.5%

65.8%

51.3%

Qwen2.5-32B

83.3%

84.2%

91.2%

72.1%

60.7%

Qwen2.5-72B

86.1%

86.2%

93.2%

79.5%

67.4%

Qwen2.5-Coder-7B

72.8%

88.4%

86.1%

58.4%

64.2%

Qwen2.5-Coder-32B

83.1%

92.7%

92.3%

76.8%

78.5%

Docker Compose

下载所有所需的检查点

典型 CLORE.AI 市场价格:

GPU
验证 CUDA 兼容性
最适合

RTX 3090 24GB

~$0.06

7B 模型

RTX 4090 24GB

~$0.10

7B-14B 模型

按日费率

~$0.17

14B-32B 模型

4 小时会话

~$0.25

32B 模型,Coder-32B

2x A100 80GB

~$0.50

72B 模型

4x A100 80GB

~$1.00

72B 最大上下文

价格因提供者而异。查看 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 适用于弹性工作负载的市场

  • 以获取当前费率。 CLORE 节省费用:

  • 从较小的模型(7B)开始进行测试

# 使用固定种子以获得一致结果

内存不足

生成速度慢

中文字符显示

未找到模型

Qwen2.5 与其他模型比较

特性
Qwen2.5-7B
Qwen2.5-72B
Llama 3.1 70B
GPT-4o

上下文

128K

128K

128K

128K

多语言

优秀

优秀

良好

优秀

代码

优秀

优秀

良好

优秀

数学

优秀

优秀

良好

优秀

中文

优秀

优秀

良好

许可

Apache 2.0

Apache 2.0

Llama 3.1

专有

成本

免费

免费

免费

付费 API

何时使用 Qwen2.5:

  • 需要中文语言支持时

  • 以数学/代码任务为优先时

  • 需要长上下文时

  • 希望获得 Apache 2.0 许可时

  • 需要最佳开源代码模型(Coder-32B)

使用以下方式支付

最后更新于

这有帮助吗?