DeepSeek V4(1T MoE,多模态)

在 Clore.ai GPU 服务器上部署 DeepSeek V4 —— 这一万亿参数的多模态开放权重模型

circle-info

状态(2026年3月4日): DeepSeek V4 版本即将发布——预计为 2026 年 3 月的第一周。本指南介绍在权重上传到 HuggingFace 后使用 vLLM/Ollama 的设置方法。请查看 huggingface.co/deepseek-aiarrow-up-right 以获取最新发布信息。

DeepSeek V4 是 2026 年初最受期待的开源权重模型——一个 约 1 万亿参数的多模态 MoE 来自 DeepSeek AI,使用 NVIDIA 最新芯片训练并为华为昇腾硬件优化。每个 token 有约 320 亿活跃参数,在计算成本很低的情况下提供前沿级性能。

主要规格

属性
数值

总参数量

约 1 万亿(MoE)

活跃参数

每次前向约 320 亿

上下文窗口

100 万 token

模态

文本 + 图像 + 视频

许可证

预期为 MIT(如 V3)

基准

预计将位居开源排行榜前列

为什么选择 DeepSeek V4?

  • 第1号开源权重模型 ——旨在超越 V3 并与 GPT-4.5/Claude Opus 竞争

  • 多模态 ——原生支持文本、图像和视频输入

  • 100 万上下文 ——适用于长文档 RAG,整个代码库可置于上下文中

  • MIT 许可 ——允许商业使用,无限制

  • 极高效率 ——尽管总参数量为 1T,但仅有 32B 活跃参数


需求

组件
最低要求
推荐

GPU 显存

用于 Q4:2× RTX 4090(48GB)

用于 FP16:4× A100 80GB

内存(RAM)

64GB

128GB

磁盘

500GB(量化后)

2TB(FP16)

CUDA

12.4+

12.6+

circle-exclamation

选项 A — 通过 Ollama 量化(最简单,一旦可用)

权重一公开,Ollama 将在数小时内添加 DeepSeek V4 模型。


选项 B — vLLM(生产 API,高吞吐)


选项 C — llama.cpp(CPU+GPU,量化)


Clore.ai 上的 GPU 推荐

设置
显存(VRAM)
预期性能
Clore.ai 成本

2× RTX 4090

48GB

Q4 量化,约 15 tok/s

约 $4–5/天

4× RTX 4090

96GB

Q5/Q8 量化,约 25 tok/s

约 $8–10/天

4× A100 80GB

320GB

BF16 MoE 分片,速度快

约 $15–20/天

8× H100 80GB

640GB

完整 FP16,最高速度

约 $50+/天

circle-check

Clore.ai 端口转发

将以下端口添加到你的 Clore.ai 容器端口配置:

端口
服务

11434

Ollama API

8000

vLLM 兼容 OpenAI 的 API

8080

llama.cpp 服务器 / Open WebUI

3000

Open WebUI 聊天界面


性能建议

  1. 使用 Q4_K_M 量化 以获得最佳质量/显存权衡——仍然优于大多数 70B 模型

  2. 启用 flash attention:添加 --enable-chunked-prefill 到 vLLM 以支持长上下文

  3. 张量并行:vLLM 的 --tensor-parallel-size N 可在 N 块 GPU 上无缝运行

  4. 上下文长度:在 2×4090 上从 8192 ctx 开始,如显存允许可增加

  5. BF16 优于 FP16 对于 MoE 模型——在稀疏激活上精度损失更小


可期待的表现

基于 DeepSeek V3 的模式和预发布基准:

  • 编码: 预计在 SWE-bench 上处于顶级(可与 Claude 3.7 Sonnet 竞争)

  • 数学/推理: MATH-500 和 AIME 分数将超过所有开源权重的前代模型

  • 多模态: 图像和视频理解可比肩 GPT-4V

  • 长上下文: 用于整库分析的 100 万 token 窗口


链接

最后更新于

这有帮助吗?