DeepSeek-R1 推理模型

在 Clore.ai GPU 上运行 DeepSeek-R1 开源推理模型

circle-check

概览

DeepSeek-R1 是 DeepSeek 在 2025 年 1 月发布的一个 6710 亿参数的开源权重推理模型,采用 Apache 2.0 许可证发布。它是第一个在数学、编码和科学基准上匹配 OpenAI o1 的开源模型——同时通过显式 <think> 标签暴露其完整的思维链。

完整模型使用 专家混合(Mixture-of-Experts,MoE) 每个标记有 370 亿个激活参数,使得尽管名义参数量庞大,推理仍可行。对于大多数实践者来说, 蒸馏变体 (1.5B → 70B)更实用:它们通过知识蒸馏将 R1 的推理模式继承到 Qwen-2.5 和 Llama-3 基础架构中,并能在普通 GPU 上运行。

主要特性

  • 显式思维链 — 每个响应都以一个 <think> 块开头,模型在产生最终答案之前进行推理、回溯和自我纠正

  • 通过强化学习训练 — 推理能力来自 RL 奖励信号,而不是手工编写的思维链数据

  • 六种蒸馏变体 — 从完整 671B 蒸馏到 Qwen 和 Llama 架构的 1.5B、7B、8B、14B、32B、70B 参数模型

  • Apache 2.0 许可证 — 完全商业化,无版税,无使用限制

  • 广泛的框架支持 — Ollama、vLLM、llama.cpp、SGLang、Transformers、TGI 均开箱即用

  • AIME 2024 Pass@1:79.8% — 在竞赛数学上与 OpenAI o1 并列

  • Codeforces 2029 Elo — 在竞赛编程上超过 o1 的 1891 分

1024x1024

变体
参数量
架构
FP16 显存
Q4 显存
Q4 磁盘

DeepSeek-R1(完整 MoE)

671B(37B 激活)

DeepSeek MoE

约 1.3 TB

约 350 GB

约 340 GB

R1-Distill-Llama-70B

70B

Llama 3

140 GB

40 GB

42 GB

R1-Distill-Qwen-32B

32B

Qwen 2.5

64 GB

22 GB

20 GB

R1-Distill-Qwen-14B

14B

Qwen 2.5

28 GB

10 GB

9 GB

R1-Distill-Llama-8B

8B

Llama 3

16 GB

6 GB

5.5 GB

R1-Distill-Qwen-7B

7B

Qwen 2.5

14 GB

5 GB

4.5 GB

R1-Distill-Qwen-1.5B

1.5B

Qwen 2.5

3 GB

2 GB

1.2 GB

选择变体

模型变体
推荐变体
Clore 上的 GPU

快速实验、边缘测试

R1-Distill-Qwen-1.5B

任意 GPU

预算部署、快速推理

R1-Distill-Qwen-7B

RTX 3090(~$0.30–1/天)

单 GPU 生产的最佳选择点

R1-Distill-Qwen-14B Q4

RTX 4090(~$0.50–2/天)

性价比最高(推荐)

R1-Distill-Qwen-32B Q4

RTX 4090 24 GB 或 A100 40 GB

最大化蒸馏质量

R1-Distill-Llama-70B

2× A100 80 GB

研究、完整保真推理

DeepSeek-R1 671B

8× H100 集群

HuggingFace 仓库

要求

组件
最低(7B Q4)
推荐(32B Q4)

GPU 显存

6 GB

24 GB

系统内存

16 GB

32 GB

磁盘

10 GB

30 GB

CUDA

12.1+

12.4+

已预装 Docker

24.0+

25.0+

Ollama 快速入门

Ollama 会自动处理量化、下载和服务——这是运行 DeepSeek-R1 的最快路径。

安装并运行

示例交互会话

使用与 OpenAI 兼容的 API

Python 客户端(通过 OpenAI SDK)

vLLM 生产部署

vLLM 通过连续批处理、分页注意力(PagedAttention)和前缀缓存,为多用户服务提供最高吞吐量。

单 GPU — 7B / 14B

多 GPU — 32B(推荐)

提示: 32B Q4 的 GPTQ 或 AWQ 检查点可装入单个 RTX 4090(24 GB):

多 GPU — 70B

查询 vLLM 端点

Transformers / Python(带有 <think> 标签解析)

当你需要对生成进行细粒度控制或希望将 R1 集成到 Python 流水线时,请使用 HuggingFace Transformers。

基本生成

解析 <think> 标签

使用流式(streaming)和 <think> 状态跟踪

在 Clore.ai 上的 Docker 部署

Ollama Docker(最简单)

Docker 镜像: ollama/ollama 端口: 22/tcp,11434/http

vLLM Docker(生产)

Docker 镜像: vllm/vllm-openai:latest 端口: 22/tcp,8000/http

在 Clore.ai 上部署:

  1. 按以下条件筛选 2× GPU,总显存 48 GB+ (例如 2× RTX 4090 或 A100 80 GB)

  2. 将 Docker 镜像设置为 vllm/vllm-openai:latest

  3. 映射端口 8000 为 HTTP

  4. 将上面 compose 文件中的命令粘贴到启动命令中

  5. 在健康检查通过后通过 HTTP 端点连接

Clore.ai 部署提示

选择合适的 GPU

预算型
GPU
每日费用
最佳变体

最小

RTX 3090(24 GB)

$0.30 – 1.00

R1-Distill-Qwen-7B 或 14B Q4

标准

RTX 4090(24 GB)

$0.50 – 2.00

R1-Distill-Qwen-14B FP16 或 32B Q4

生产环境

A100 80 GB

$3 – 8

R1-Distill-Qwen-32B FP16

高质量

2× A100 80 GB

$6 – 16

R1-Distill-Llama-70B FP16

性能调优

  • Temperature 0.6 是针对推理任务推荐的默认值 — DeepSeek 自己的论文使用该值

  • 设置 max_tokens 慷慨设置 — 推理模型会生成较长的 <think> 块;非平凡问题建议 4096+

  • 启用前缀缓存 (--enable-prefix-caching 在使用共享系统提示时(在 vLLM 中)

  • 限制并发量 (--max-num-seqs 16)用于推理工作负载 — 每个请求比标准聊天使用更多计算资源

  • 使用 Q4 量化 以在单个 24 GB GPU 上以最小质量损失容纳 32B(蒸馏已压缩 R1 的知识)

上下文长度注意事项

推理模型比标准聊天模型消耗更多上下文,因为思维 <think> 块:

任务复杂度
典型思考长度
所需总上下文

简单算术

约 100 个标记

约 300 个标记

代码生成

约 500–1000 个标记

约 2000 个标记

竞赛数学(AIME)

约 2000–4000 个标记

约 5000 个标记

多步研究分析

约 4000–8000 个标记

约 10000 个标记

# 使用固定种子以获得一致结果

内存不足(OOM)

模型未生成任何 <think>

某些系统提示会抑制思维。避免类似“简洁”或“不要解释你的推理”的指令。使用最小的系统提示或根本不使用:

重复或循环的 <think> 输出

降低 temperature 以减少推理链中的随机性:

第一个标记慢(高 TTFT)

这是预期的 — 模型在可见答案之前会生成 <think> 标记。对于对延迟敏感且不需要推理的应用,请改用 DeepSeek-V3

在 Clore 实例上下载停滞

在某些提供商上 HuggingFace 下载可能很慢。将模型预缓存到持久卷:

延伸阅读

最后更新于

这有帮助吗?