DeepSeek-V3

在 Clore.ai GPU 上运行具有卓越推理能力的 DeepSeek-V3

在 CLORE.AI GPU 上运行 DeepSeek-V3 —— 这是一款在推理能力上表现卓越的最先进开源大语言模型。

circle-check
circle-info

更新:DeepSeek-V3-0324(2024年3月) — DeepSeek-V3 的最新修订在代码生成、数学推理和通用问题解决方面带来显著改进。参见 变更日志 部分以获取详细信息。

为什么选择 DeepSeek-V3?

  • 最先进 - 可与 GPT-4o 和 Claude 3.5 Sonnet 竞争

  • 671B 专家模型(MoE) - 总参数 671B,每个 token 激活 37B(高效推理)

  • 改进的推理能力 - DeepSeek-V3-0324 在数学和代码方面显著更好

  • 高效 - MoE 架构相较于密集模型降低了计算成本

  • 开源 - 完全开源权重,采用 MIT 许可证

  • 长上下文 - 128K token 上下文窗口

DeepSeek-V3-0324 的更新内容

DeepSeek-V3-0324(2024年3月修订)在关键领域引入了有意义的改进:

代码生成

  • 在人类评测(HumanEval)上提高 +8-12% 相比原始 V3

  • 在多文件代码库和复杂重构任务上表现更佳

  • 更好地理解现代框架(FastAPI、Pydantic v2、LangChain v0.3)

  • 生成完整、可运行代码时更可靠,不易遗漏

数学推理

  • 在 MATH-500 上提高 +5% 基准测试

  • 更好的逐步证明构建能力

  • 多步骤问题的数值精度有所提升

  • 增强了在解题过程中识别并纠正错误的能力

通用推理

  • 更强的逻辑推导和因果推断能力

  • 在多步骤规划任务上表现更好

  • 在边缘案例和模糊提示上的表现更一致

  • 在复杂、多约束请求上的指令遵循能力得到改进

在 CLORE.AI 上快速部署

Docker 镜像:

端口:

命令(需要多 GPU):

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

验证是否正常运行

circle-exclamation

1024x1024

A100
参数量
活动
所需显存
HuggingFace

硬件要求

全精度

A100
最低
推荐

DeepSeek-V3-0324

8x A100 80GB

8x H100 80GB

DeepSeek-V2.5

4x A100 80GB

4x H100 80GB

DeepSeek-V2-Lite

RTX 4090 24GB

按日费率

量化(AWQ/GPTQ)

A100
量化
显存

DeepSeek-V3-0324

INT4

4x80GB

DeepSeek-V2.5

INT4

2×80GB

DeepSeek-V2-Lite

INT4

8GB

安装

使用 vLLM(推荐)

使用 Transformers

使用 Ollama

API 使用

兼容 OpenAI 的 API(vLLM)

流式传输

cURL

DeepSeek-V2-Lite(单 GPU)

针对硬件受限的用户:

代码生成

DeepSeek-V3-0324 在代码方面是同类最佳:

V3-0324 在高级代码任务上表现出色:

数学与推理

多 GPU 配置

8x GPU(完整模型 — V3-0324)

4x GPU(V2.5)

background = Image.open("studio_bg.jpg")

吞吐量(tokens/秒)

A100
GPU 数量
上下文
每秒标记数

DeepSeek-V3-0324

8x H100

32K

~85

DeepSeek-V3-0324

8x A100 80GB

32K

~52

DeepSeek-V3-0324 INT4

4x A100 80GB

16K

~38

DeepSeek-V2.5

4x A100 80GB

16K

~70

DeepSeek-V2.5

2x A100 80GB

8K

~45

DeepSeek-V2-Lite

512x512

8K

~40

DeepSeek-V2-Lite

速度

4K

~25

首个标记时间(TTFT)

A100
配置
TTFT

DeepSeek-V3-0324

8x H100

~750ms

DeepSeek-V3-0324

8x A100

~1100ms

DeepSeek-V2.5

4x A100

~500ms

DeepSeek-V2-Lite

512x512

~150ms

内存使用

A100
精度
所需显存

DeepSeek-V3-0324

FP16

8x 80GB

DeepSeek-V3-0324

INT4

4x 80GB

DeepSeek-V2.5

FP16

4x 80GB

DeepSeek-V2.5

INT4

2x 80GB

DeepSeek-V2-Lite

FP16

20GB

DeepSeek-V2-Lite

INT4

10GB

基准测试

DeepSeek-V3-0324 与竞品对比

基准
V3-0324
V3(原始)
GPT-4o
Claude 3.5 Sonnet

MMLU

88.5%

87.1%

88.7%

88.3%

HumanEval

90.2%

82.6%

90.2%

92.0%

MATH-500

67.1%

61.6%

76.6%

71.1%

GSM8K

92.1%

89.3%

95.8%

96.4%

LiveCodeBench

72.4%

65.9%

71.3%

73.8%

Codeforces 等级

1850

1720

1780

1790

注意:MATH-500 从 V3 到 V3-0324 的提升为 +5.5 个百分点。

Docker Compose

GPU 要求汇总

模型变体
推荐配置
每小时成本

完整 DeepSeek-V3-0324

8x A100 80GB

~$2.00

DeepSeek-V2.5

4x A100 80GB

~$1.00

开发/测试

RTX 4090(V2-Lite)

~$0.10

生产环境 API

8x H100 80GB

~$3.00

下载所有所需的检查点

典型 CLORE.AI 市场价格:

GPU 配置
验证 CUDA 兼容性
费用估算

RTX 4090 24GB

~$0.10

~$2.30

按日费率

~$0.17

~$4.00

4 小时会话

~$0.25

~$6.00

4x A100 80GB

~$1.00

~$24.00

8x A100 80GB

~$2.00

~$48.00

价格因提供者而异。查看 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 用于开发的市场(通常便宜 30-50%)

  • 以获取当前费率。 CLORE 节省费用:

  • 在扩展之前使用 DeepSeek-V2-Lite 进行测试

# 使用固定种子以获得一致结果

内存不足

模型下载缓慢

trust_remote_code 错误

多 GPU 无法工作

DeepSeek 与其他模型对比

特性
DeepSeek-V3-0324
Llama 3.1 405B
Mixtral 8x22B

参数量

671B(37B 激活)

405B

176B(44B 激活)

上下文

128K

128K

64K

代码

优秀

很棒

良好

数学

优秀

良好

良好

最小显存

8x80GB

8x80GB

2×80GB

许可

MIT 协议

Llama 3.1

Apache 2.0

在以下情况使用 DeepSeek-V3:

  • 需要最佳的推理性能

  • 代码生成为主要用途

  • 数学/逻辑任务很重要

  • 有可用的多 GPU 部署环境

  • 希望获得完全开源的权重(MIT 许可证)

使用以下方式支付

最后更新于

这有帮助吗?