# DeepSeek V4（1T MoE，多模态）

{% hint style="info" %}
**状态（2026年3月4日）：** DeepSeek V4 版本即将发布——预计为 2026 年 3 月的第一周。本指南介绍在权重上传到 HuggingFace 后使用 vLLM/Ollama 的设置方法。请查看 [huggingface.co/deepseek-ai](https://huggingface.co/deepseek-ai) 以获取最新发布信息。
{% endhint %}

DeepSeek V4 是 2026 年初最受期待的开源权重模型——一个 **约 1 万亿参数的多模态 MoE** 来自 DeepSeek AI，使用 NVIDIA 最新芯片训练并为华为昇腾硬件优化。每个 token 有约 320 亿活跃参数，在计算成本很低的情况下提供前沿级性能。

### 主要规格

| 属性    | 数值            |
| ----- | ------------- |
| 总参数量  | 约 1 万亿（MoE）   |
| 活跃参数  | 每次前向约 320 亿   |
| 上下文窗口 | 100 万 token   |
| 模态    | 文本 + 图像 + 视频  |
| 许可证   | 预期为 MIT（如 V3） |
| 基准    | 预计将位居开源排行榜前列  |

### 为什么选择 DeepSeek V4？

* **第1号开源权重模型** ——旨在超越 V3 并与 GPT-4.5/Claude Opus 竞争
* **多模态** ——原生支持文本、图像和视频输入
* **100 万上下文** ——适用于长文档 RAG，整个代码库可置于上下文中
* **MIT 许可** ——允许商业使用，无限制
* **极高效率** ——尽管总参数量为 1T，但仅有 32B 活跃参数

***

## 需求

| 组件      | 最低要求                    | 推荐                   |
| ------- | ----------------------- | -------------------- |
| GPU 显存  | 用于 Q4：2× RTX 4090（48GB） | 用于 FP16：4× A100 80GB |
| 内存（RAM） | 64GB                    | 128GB                |
| 磁盘      | 500GB（量化后）              | 2TB（FP16）            |
| CUDA    | 12.4+                   | 12.6+                |

{% hint style="warning" %}
**大型模型提示：** DeepSeek V4 在 FP16 下需要跨多块 A100/H100 大约 2TB 的显存。对于实用的单节点/双节点使用，请等待 GGUF Q4 量化（预计在发布数日内）。Q4\_K\_M 在约 1T 参数时≈约 500GB——可使用多节点或在 4× RTX 4090 上使用 8 位量化。
{% endhint %}

***

## 选项 A — 通过 Ollama 量化（最简单，一旦可用）

权重一公开，Ollama 将在数小时内添加 DeepSeek V4 模型。

```yaml
version: "3.8"
services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    environment:
      - OLLAMA_KEEP_ALIVE=24h
      - OLLAMA_MAX_LOADED_MODELS=1

volumes:
  ollama_data:
```

```bash
# 拉取并运行 DeepSeek V4（发布后更新标签）
docker exec ollama ollama pull deepseek-v4:32b-q4_K_M
docker exec ollama ollama run deepseek-v4:32b-q4_K_M

# 或通过 Open WebUI 获取完整聊天界面
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main
```

***

## 选项 B — vLLM（生产 API，高吞吐）

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model deepseek-ai/DeepSeek-V4
      --tensor-parallel-size 4
      --max-model-len 32768
      --dtype bfloat16
      --gpu-memory-utilization 0.92
      --served-model-name deepseek-v4
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# 测试 API
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4",
    "messages": [{"role": "user", "content": "用简单语言解释量子纠缠"}],
    "max_tokens": 512
  }'
```

***

## 选项 C — llama.cpp（CPU+GPU，量化）

```bash
# 一旦 HuggingFace 上提供 GGUF 文件
docker run --gpus all -it --rm \
  -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/deepseek-v4-q4_k_m.gguf \
  --n-gpu-layers 80 \
  --threads 8 \
  --ctx-size 8192 \
  --port 8080 \
  --host 0.0.0.0
```

***

## Clore.ai 上的 GPU 推荐

| 设置           | 显存（VRAM） | 预期性能                | Clore.ai 成本 |
| ------------ | -------- | ------------------- | ----------- |
| 2× RTX 4090  | 48GB     | Q4 量化，约 15 tok/s    | 约 $4–5/天    |
| 4× RTX 4090  | 96GB     | Q5/Q8 量化，约 25 tok/s | 约 $8–10/天   |
| 4× A100 80GB | 320GB    | BF16 MoE 分片，速度快     | 约 $15–20/天  |
| 8× H100 80GB | 640GB    | 完整 FP16，最高速度        | 约 $50+/天    |

{% hint style="success" %}
**Clore.ai 上的最佳性价比：** 租用 2× RTX 4090（可从约 $4/天起）用于 Q4 量化的 DeepSeek V4。预计 10–20 token/秒——非常适合个人使用和开发。
{% endhint %}

***

## Clore.ai 端口转发

将以下端口添加到你的 Clore.ai 容器端口配置：

| 端口    | 服务                         |
| ----- | -------------------------- |
| 11434 | Ollama API                 |
| 8000  | vLLM 兼容 OpenAI 的 API       |
| 8080  | llama.cpp 服务器 / Open WebUI |
| 3000  | Open WebUI 聊天界面            |

***

## 性能建议

1. **使用 Q4\_K\_M 量化** 以获得最佳质量/显存权衡——仍然优于大多数 70B 模型
2. **启用 flash attention**：添加 `--enable-chunked-prefill` 到 vLLM 以支持长上下文
3. **张量并行**：vLLM 的 `--tensor-parallel-size N` 可在 N 块 GPU 上无缝运行
4. **上下文长度**：在 2×4090 上从 8192 ctx 开始，如显存允许可增加
5. **BF16 优于 FP16** 对于 MoE 模型——在稀疏激活上精度损失更小

***

## 可期待的表现

基于 DeepSeek V3 的模式和预发布基准：

* **编码：** 预计在 SWE-bench 上处于顶级（可与 Claude 3.7 Sonnet 竞争）
* **数学/推理：** MATH-500 和 AIME 分数将超过所有开源权重的前代模型
* **多模态：** 图像和视频理解可比肩 GPT-4V
* **长上下文：** 用于整库分析的 100 万 token 窗口

***

## 链接

* **HuggingFace：** [huggingface.co/deepseek-ai](https://huggingface.co/deepseek-ai) （权重将在此处出现）
* **GitHub：** [github.com/deepseek-ai](https://github.com/deepseek-ai)
* **DeepSeek V3 指南（现行）：** [DeepSeek-V3](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/deepseek-v3)
* **DeepSeek-R1 指南：** [DeepSeek-R1](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/deepseek-r1)
* **Clore.ai 市场：** [clore.ai/marketplace](https://clore.ai/marketplace)
