# GPU 对比

CLORE.AI 上可用于 AI 工作负载的 GPU 完整对比。

{% hint style="success" %}
在此为您的任务寻找合适的 GPU： [CLORE.AI 市场](https://clore.ai/marketplace).
{% endhint %}

## 快速推荐

| 您的任务         | 预算之选          | 最佳性价比         | 最高性能          |
| ------------ | ------------- | ------------- | ------------- |
| 与 AI 聊天（7B）  | RTX 3060 12GB | RTX 3090 24GB | RTX 5090 32GB |
| 与 AI 聊天（70B） | RTX 3090 24GB | RTX 5090 32GB | A100 80GB     |
| 图像生成（SD 1.5） | RTX 3060 12GB | RTX 3090 24GB | RTX 5090 32GB |
| 图像生成（SDXL）   | RTX 3090 24GB | RTX 4090 24GB | RTX 5090 32GB |
| 图像生成（FLUX）   | RTX 3090 24GB | RTX 5090 32GB | A100 80GB     |
| 视频生成         | RTX 4090 24GB | RTX 5090 32GB | A100 80GB     |
| 模型训练         | A100 40GB     | A100 80GB     | H100 80GB     |

## 消费级 GPU

### NVIDIA RTX 3060 12GB

**最佳适用：** 预算型 AI、SD 1.5、小型 LLM

| 规格      | 价值          |
| ------- | ----------- |
| 显存      | 12GB GDDR6  |
| 内存带宽    | 360 GB/s    |
| FP16 性能 | 12.7 TFLOPS |
| 张量核     | 112（第 3 代）  |
| TDP     | 170W        |
| 约 每小时价格 | $0.02-0.04  |

**能力：**

* ✅ Ollama 支持 7B 模型（Q4）
* ✅ Stable Diffusion 1.5（512x512）
* ✅ SDXL（768x768，较慢）
* ⚠️ FLUX schnell（需 CPU 卸载）
* ❌ 大模型（>13B）
* ❌ 视频生成

***

### NVIDIA RTX 3070/3070 Ti 8GB

**最佳适用：** SD 1.5、轻量级任务

| 规格      | 价值           |
| ------- | ------------ |
| 显存      | 8GB GDDR6X   |
| 内存带宽    | 448-608 GB/s |
| FP16 性能 | 20.3 TFLOPS  |
| 张量核     | 184（第 3 代）   |
| TDP     | 220-290W     |
| 约 每小时价格 | $0.02-0.04   |

**能力：**

* ✅ Ollama 支持 7B 模型（Q4）
* ✅ Stable Diffusion 1.5（512x512）
* ⚠️ SDXL（仅低分辨率）
* ❌ FLUX（显存不足）
* ❌ 模型 >7B
* ❌ 视频生成

***

### NVIDIA RTX 3080/3080 Ti 10-12GB

**最佳适用：** 通用 AI 任务，良好平衡

| 规格      | 价值               |
| ------- | ---------------- |
| 显存      | 10-12GB GDDR6X   |
| 内存带宽    | 760-912 GB/s     |
| FP16 性能 | 29.8-34.1 TFLOPS |
| 张量核     | 272-320（第 3 代）   |
| TDP     | 320-350W         |
| 约 每小时价格 | $0.04-0.06       |

**能力：**

* ✅ Ollama 支持 13B 模型
* ✅ Stable Diffusion 1.5/2.1
* ✅ SDXL（1024x1024）
* ⚠️ FLUX schnell（需卸载）
* ❌ 大模型（>13B）
* ❌ 视频生成

***

### NVIDIA RTX 3090/3090 Ti 24GB

**最佳适用：** SDXL、13B-30B LLM、ControlNet

| 规格      | 价值          |
| ------- | ----------- |
| 显存      | 24GB GDDR6X |
| 内存带宽    | 936 GB/s    |
| FP16 性能 | 35.6 TFLOPS |
| 张量核     | 328（第 3 代）  |
| TDP     | 350-450W    |
| 约 每小时价格 | $0.05-0.08  |

**能力：**

* ✅ Ollama 支持 30B 模型
* ✅ vLLM 支持 13B 模型
* ✅ 所有 Stable Diffusion 模型
* ✅ SDXL + ControlNet
* ✅ FLUX schnell（1024x1024）
* ⚠️ FLUX dev（需卸载）
* ⚠️ 视频（短片）

***

### NVIDIA RTX 4070 Ti 12GB

**最佳适用：** SD 1.5 快速、高效推理

| 规格      | 价值          |
| ------- | ----------- |
| 显存      | 12GB GDDR6X |
| 内存带宽    | 504 GB/s    |
| FP16 性能 | 40.1 TFLOPS |
| 张量核     | 184（第 4 代）  |
| TDP     | 285W        |
| 约 每小时价格 | $0.04-0.06  |

**能力：**

* ✅ Ollama 支持 7B 模型（快速）
* ✅ Stable Diffusion 1.5（非常快）
* ✅ SDXL（768x768）
* ⚠️ FLUX schnell（分辨率受限）
* ❌ 大模型（>13B）
* ❌ 视频生成

***

### NVIDIA RTX 4080 16GB

**最佳适用：** SDXL 生产级，13B LLM

| 规格      | 价值          |
| ------- | ----------- |
| 显存      | 16GB GDDR6X |
| 内存带宽    | 717 GB/s    |
| FP16 性能 | 48.7 TFLOPS |
| 张量核     | 304（第 4 代）  |
| TDP     | 320W        |
| 约 每小时价格 | $0.06-0.09  |

**能力：**

* ✅ Ollama 支持 13B 模型（快速）
* ✅ vLLM 支持 7B 模型
* ✅ 所有 Stable Diffusion 模型
* ✅ SDXL + ControlNet
* ✅ FLUX schnell（1024x1024）
* ⚠️ FLUX dev（受限）
* ⚠️ 短视频片段

***

### NVIDIA RTX 4090 24GB

**最佳适用：** 高端消费级性能，FLUX，视频

| 规格      | 价值          |
| ------- | ----------- |
| 显存      | 24GB GDDR6X |
| 内存带宽    | 1008 GB/s   |
| FP16 性能 | 82.6 TFLOPS |
| 张量核     | 512（第 4 代）  |
| TDP     | 450W        |
| 约 每小时价格 | $0.08-0.12  |

**能力：**

* ✅ Ollama 支持 30B 模型（快速）
* ✅ vLLM 支持 13B 模型
* ✅ 所有图像生成模型
* ✅ FLUX dev（1024x1024）
* ✅ 视频生成（短片）
* ✅ AnimateDiff
* ⚠️ 70B 模型（仅 Q4）

***

### NVIDIA RTX 5080 16GB *（新品 — 2025 年 2 月）*

**最佳适用：** 快速 SDXL/FLUX，13B-30B LLM，中高端高性能

| 规格               | 价值          |
| ---------------- | ----------- |
| 显存               | 16GB GDDR7  |
| 内存带宽             | 960 GB/s    |
| FP16 性能          | 约 80 TFLOPS |
| 张量核              | 336（第 5 代）  |
| TDP              | 360W        |
| 约 Clore.ai 每小时价格 | $1.50-2.00  |

**能力：**

* ✅ Ollama 支持 13B 模型（快速）
* ✅ vLLM 支持 13B 模型
* ✅ 所有 Stable Diffusion 模型
* ✅ SDXL + ControlNet（非常快）
* ✅ FLUX schnell/dev（1024x1024）
* ✅ 短视频片段
* ⚠️ 30B 模型（仅 Q4）
* ❌ 70B 模型

***

### NVIDIA RTX 5090 32GB *（旗舰版 — 2025 年 2 月）*

**最佳适用：** 消费级最高性能，支持 70B 模型，高分辨率视频生成

| 规格               | 价值           |
| ---------------- | ------------ |
| 显存               | 32GB GDDR7   |
| 内存带宽             | 1792 GB/s    |
| FP16 性能          | 约 120 TFLOPS |
| 张量核              | 680（第 5 代）   |
| TDP              | 575W         |
| 约 Clore.ai 每小时价格 | $3.00-4.00   |

**能力：**

* ✅ Ollama 支持 70B 模型（Q4，快速）
* ✅ vLLM 支持 30B 模型
* ✅ 所有图像生成模型
* ✅ FLUX dev（1536x1536）
* ✅ 视频生成（更长片段）
* ✅ AnimateDiff + ControlNet
* ✅ 模型训练（LoRA，小规模微调）
* ✅ DeepSeek-R1 32B 蒸馏（FP16）

## 专业/数据中心 GPU

### NVIDIA A100 40GB

**最佳适用：** 生产级 LLM、训练、大型模型

| 规格      | 价值           |
| ------- | ------------ |
| 显存      | 40GB HBM2e   |
| 内存带宽    | 1555 GB/s    |
| FP16 性能 | 77.97 TFLOPS |
| 张量核     | 432（第 3 代）   |
| TDP     | 400W         |
| 约 每小时价格 | $0.15-0.20   |

**能力：**

* ✅ Ollama 支持 70B 模型（Q4）
* ✅ vLLM 生产级部署
* ✅ 所有图像生成
* ✅ FLUX dev（高质量）
* ✅ 视频生成
* ✅ 模型微调
* ⚠️ 70B FP16（紧张）

***

### NVIDIA A100 80GB

**最佳适用：** 70B+ 模型、视频、生产工作负载

| 规格      | 价值           |
| ------- | ------------ |
| 显存      | 80GB HBM2e   |
| 内存带宽    | 2039 GB/s    |
| FP16 性能 | 77.97 TFLOPS |
| 张量核     | 432（第 3 代）   |
| TDP     | 400W         |
| 约 每小时价格 | $0.20-0.30   |

**能力：**

* ✅ 所有高达 70B 的 LLM（FP16）
* ✅ vLLM 高吞吐量服务
* ✅ 所有图像生成
* ✅ 长视频生成
* ✅ 模型训练
* ✅ DeepSeek-V3（部分）
* ⚠️ 100B+ 模型

***

### NVIDIA H100 80GB

**最佳适用：** 极致性能，最大规模模型

| 规格      | 价值         |
| ------- | ---------- |
| 显存      | 80GB HBM3  |
| 内存带宽    | 3350 GB/s  |
| FP16 性能 | 267 TFLOPS |
| 张量核     | 528（第 4 代） |
| TDP     | 700W       |
| 约 每小时价格 | $0.40-0.60 |

**能力：**

* ✅ 所有模型的最大速度
* ✅ 100B+ 参数模型
* ✅ 多模型服务
* ✅ 大规模训练
* ✅ 实时视频生成
* ✅ DeepSeek-V3（671B）

## 性能比较

### LLM 推理（tokens/秒）

| GPU           | Llama 3 8B | Llama 3 70B | Mixtral 8x7B | Clore.ai $/小时 |
| ------------- | ---------- | ----------- | ------------ | ------------- |
| RTX 3060 12GB | 25         | -           | -            | $0.02-0.04    |
| RTX 3090 24GB | 45         | 8\*         | 20\*         | $0.15-0.25    |
| RTX 4090 24GB | 80         | 15\*        | 35\*         | $0.35-0.55    |
| RTX 5080 16GB | 95         | -           | 40\*         | $1.50-2.00    |
| RTX 5090 32GB | 150        | 30\*        | 65\*         | $3.00-4.00    |
| A100 40GB     | 100        | 25          | 45           | $0.80-1.20    |
| A100 80GB     | 110        | 40          | 55           | $1.20-1.80    |
| H100 80GB     | 180        | 70          | 90           | $2.50-3.50    |

\*使用量化（Q4/Q8）

### 图像生成速度

| GPU           | SD 1.5（512） | SDXL（1024） | FLUX schnell | Clore.ai $/小时 |
| ------------- | ----------- | ---------- | ------------ | ------------- |
| RTX 3060 12GB | 4 秒         | 15 秒       | 25 秒\*       | $0.02-0.04    |
| RTX 3090 24GB | 2 秒         | 7 秒        | 12 秒         | $0.15-0.25    |
| RTX 4090 24GB | 1 秒         | 3 秒        | 5 秒          | $0.35-0.55    |
| RTX 5080 16GB | 0.8 秒       | 2.5 秒      | 4 秒          | $1.50-2.00    |
| RTX 5090 32GB | 0.6 秒       | 1.8 秒      | 3 秒          | $3.00-4.00    |
| A100 40GB     | 1.5 秒       | 4 秒        | 6 秒          | $0.80-1.20    |
| A100 80GB     | 1.5 秒       | 4 秒        | 5 秒          | $1.20-1.80    |

\*使用 CPU 卸载，分辨率较低

### 视频生成（5 秒片段）

| GPU           | SVD    | Wan2.1 | 混元（Hunyuan） |
| ------------- | ------ | ------ | ----------- |
| RTX 3090 24GB | 3 分钟   | 5 分钟\* | -           |
| RTX 4090 24GB | 1.5 分钟 | 3 分钟   | 8 分钟\*      |
| RTX 5090 32GB | 1 分钟   | 2 分钟   | 5 分钟        |
| A100 40GB     | 1 分钟   | 2 分钟   | 5 分钟        |
| A100 80GB     | 45 秒   | 1.5 分钟 | 3 分钟        |

\*分辨率受限

## 性价比

### 按任务划分的最佳性价比

**聊天/LLM（7B-13B 模型）：**

1. 🥇 RTX 3090 24GB - 最佳性价比
2. 🥈 RTX 3060 12GB - 成本最低
3. 🥉 RTX 4090 24GB - 最快

**图像生成（SDXL/FLUX）：**

1. 🥇 RTX 3090 24GB - 平衡性好
2. 🥈 RTX 4090 24GB - 快 2 倍
3. 🥉 A100 40GB - 生产稳定性

**大型模型（70B+）：**

1. 🥇 A100 40GB - 70B 的最佳性价比
2. 🥈 A100 80GB - 完整精度
3. 🥉 RTX 4090 24GB - 预算选项（仅 Q4）

**视频生成：**

1. 🥇 A100 40GB - 良好平衡
2. 🥈 RTX 4090 24GB - 消费级选项
3. 🥉 A100 80GB - 最长片段

**模型训练：**

1. 🥇 A100 40GB - 标准选择
2. 🥈 A100 80GB - 大型模型
3. 🥉 RTX 4090 24GB - 小型模型/LoRA

## 多 GPU 配置

某些任务受益于多 GPU：

| 配置           | 使用场景                   | 显存总计  |
| ------------ | ---------------------- | ----- |
| 2x RTX 3090  | 70B 推理                 | 48GB  |
| 2x RTX 4090  | 快速 70B、训练              | 48GB  |
| 2x RTX 5090  | 70B FP16、快速训练          | 64GB  |
| 4x RTX 5090  | 100B+ 模型               | 128GB |
| 4x A100 40GB | 100B+ 模型               | 160GB |
| 8x A100 80GB | DeepSeek-V3、Llama 405B | 640GB |

## 选择您的 GPU

### 决策流程图

```
您的主要任务是什么？
│
├─ 聊天/LLM
│  ├─ 模型规模？
│  │  ├─ ≤7B → RTX 3060（$0.15–0.30/天）
│  │  ├─ 7B-30B → RTX 3090（$0.30–1.00/天）
│  │  ├─ 30B-70B → A100 40GB（$1.50–3.00/天）
│  │  └─ 70B+ → A100 80GB（$2.00–4.00/天）
│
├─ 图像生成
│  ├─ 模型？
│  │  ├─ SD 1.5 → RTX 3060（$0.15–0.30/天）
│  │  ├─ SDXL → RTX 3090（$0.30–1.00/天）
│  │  └─ FLUX → RTX 4090（$0.50–2.00/天）
│
├─ 视频生成
│  ├─ 长度？
│  │  ├─ 短（2-5 秒）→ RTX 4090（$0.50–2.00/天）
│  │  └─ 较长 → A100 40GB+（$1.50–3.00+/天）
│
└─ 训练
   ├─ LoRA/小规模 → RTX 4090（$0.50–2.00/天）
   └─ 全量微调 → A100 40GB+（$1.50–3.00+/天）
```

## 省钱技巧

1. **使用抢占订单（Spot Orders）** - 比按需便宜 30-50%
2. **从小规模开始** - 先在更便宜的 GPU 上测试
3. **对模型进行量化** - Q4/Q8 可使更大模型占用更少显存
4. **批量处理** - 同时处理多个请求
5. **非高峰时段** - 可获得更好可用性，有时价格更低

> 📚 另见： [2025 年 AI 训练十大最便宜 GPU](https://blog.clore.ai/top-10-cheapest-gpus-for-ai-training/) | [最佳 AI 训练 GPU — 详细指南](https://blog.clore.ai/best-gpu-for-ai-training/)

## 下一步

* [模型兼容性矩阵](https://docs.clore.ai/guides/guides_v2-zh/ru-men/model-compatibility) - 哪些模型可在哪些 GPU 上运行
* [Docker 镜像目录](https://docs.clore.ai/guides/guides_v2-zh/ru-men/docker-images) - 可直接使用的镜像
* [快速入门指南](https://docs.clore.ai/guides/guides_v2-zh/quickstart) - 5 分钟上手


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-zh/ru-men/gpu-comparison.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
