GPU 对比

Clore.ai 上 AI 工作负载的完整 GPU 对比指南

CLORE.AI 上可用于 AI 工作负载的 GPU 完整对比。

circle-check

快速推荐

您的任务
预算之选
最佳性价比
最高性能

与 AI 聊天(7B)

RTX 3060 12GB

RTX 3090 24GB

RTX 5090 32GB

与 AI 聊天(70B)

RTX 3090 24GB

RTX 5090 32GB

A100 80GB

图像生成(SD 1.5)

RTX 3060 12GB

RTX 3090 24GB

RTX 5090 32GB

图像生成(SDXL)

RTX 3090 24GB

RTX 4090 24GB

RTX 5090 32GB

图像生成(FLUX)

RTX 3090 24GB

RTX 5090 32GB

A100 80GB

视频生成

RTX 4090 24GB

RTX 5090 32GB

A100 80GB

模型训练

A100 40GB

A100 80GB

H100 80GB

消费级 GPU

NVIDIA RTX 3060 12GB

最佳适用: 预算型 AI、SD 1.5、小型 LLM

规格
价值

显存

12GB GDDR6

内存带宽

360 GB/s

FP16 性能

12.7 TFLOPS

张量核

112(第 3 代)

TDP

170W

约 每小时价格

$0.02-0.04

能力:

  • ✅ Ollama 支持 7B 模型(Q4)

  • ✅ Stable Diffusion 1.5(512x512)

  • ✅ SDXL(768x768,较慢)

  • ⚠️ FLUX schnell(需 CPU 卸载)

  • ❌ 大模型(>13B)

  • ❌ 视频生成


NVIDIA RTX 3070/3070 Ti 8GB

最佳适用: SD 1.5、轻量级任务

规格
价值

显存

8GB GDDR6X

内存带宽

448-608 GB/s

FP16 性能

20.3 TFLOPS

张量核

184(第 3 代)

TDP

220-290W

约 每小时价格

$0.02-0.04

能力:

  • ✅ Ollama 支持 7B 模型(Q4)

  • ✅ Stable Diffusion 1.5(512x512)

  • ⚠️ SDXL(仅低分辨率)

  • ❌ FLUX(显存不足)

  • ❌ 模型 >7B

  • ❌ 视频生成


NVIDIA RTX 3080/3080 Ti 10-12GB

最佳适用: 通用 AI 任务,良好平衡

规格
价值

显存

10-12GB GDDR6X

内存带宽

760-912 GB/s

FP16 性能

29.8-34.1 TFLOPS

张量核

272-320(第 3 代)

TDP

320-350W

约 每小时价格

$0.04-0.06

能力:

  • ✅ Ollama 支持 13B 模型

  • ✅ Stable Diffusion 1.5/2.1

  • ✅ SDXL(1024x1024)

  • ⚠️ FLUX schnell(需卸载)

  • ❌ 大模型(>13B)

  • ❌ 视频生成


NVIDIA RTX 3090/3090 Ti 24GB

最佳适用: SDXL、13B-30B LLM、ControlNet

规格
价值

显存

24GB GDDR6X

内存带宽

936 GB/s

FP16 性能

35.6 TFLOPS

张量核

328(第 3 代)

TDP

350-450W

约 每小时价格

$0.05-0.08

能力:

  • ✅ Ollama 支持 30B 模型

  • ✅ vLLM 支持 13B 模型

  • ✅ 所有 Stable Diffusion 模型

  • ✅ SDXL + ControlNet

  • ✅ FLUX schnell(1024x1024)

  • ⚠️ FLUX dev(需卸载)

  • ⚠️ 视频(短片)


NVIDIA RTX 4070 Ti 12GB

最佳适用: SD 1.5 快速、高效推理

规格
价值

显存

12GB GDDR6X

内存带宽

504 GB/s

FP16 性能

40.1 TFLOPS

张量核

184(第 4 代)

TDP

285W

约 每小时价格

$0.04-0.06

能力:

  • ✅ Ollama 支持 7B 模型(快速)

  • ✅ Stable Diffusion 1.5(非常快)

  • ✅ SDXL(768x768)

  • ⚠️ FLUX schnell(分辨率受限)

  • ❌ 大模型(>13B)

  • ❌ 视频生成


NVIDIA RTX 4080 16GB

最佳适用: SDXL 生产级,13B LLM

规格
价值

显存

16GB GDDR6X

内存带宽

717 GB/s

FP16 性能

48.7 TFLOPS

张量核

304(第 4 代)

TDP

320W

约 每小时价格

$0.06-0.09

能力:

  • ✅ Ollama 支持 13B 模型(快速)

  • ✅ vLLM 支持 7B 模型

  • ✅ 所有 Stable Diffusion 模型

  • ✅ SDXL + ControlNet

  • ✅ FLUX schnell(1024x1024)

  • ⚠️ FLUX dev(受限)

  • ⚠️ 短视频片段


NVIDIA RTX 4090 24GB

最佳适用: 高端消费级性能,FLUX,视频

规格
价值

显存

24GB GDDR6X

内存带宽

1008 GB/s

FP16 性能

82.6 TFLOPS

张量核

512(第 4 代)

TDP

450W

约 每小时价格

$0.08-0.12

能力:

  • ✅ Ollama 支持 30B 模型(快速)

  • ✅ vLLM 支持 13B 模型

  • ✅ 所有图像生成模型

  • ✅ FLUX dev(1024x1024)

  • ✅ 视频生成(短片)

  • ✅ AnimateDiff

  • ⚠️ 70B 模型(仅 Q4)


NVIDIA RTX 5080 16GB (新品 — 2025 年 2 月)

最佳适用: 快速 SDXL/FLUX,13B-30B LLM,中高端高性能

规格
价值

显存

16GB GDDR7

内存带宽

960 GB/s

FP16 性能

约 80 TFLOPS

张量核

336(第 5 代)

TDP

360W

约 Clore.ai 每小时价格

$1.50-2.00

能力:

  • ✅ Ollama 支持 13B 模型(快速)

  • ✅ vLLM 支持 13B 模型

  • ✅ 所有 Stable Diffusion 模型

  • ✅ SDXL + ControlNet(非常快)

  • ✅ FLUX schnell/dev(1024x1024)

  • ✅ 短视频片段

  • ⚠️ 30B 模型(仅 Q4)

  • ❌ 70B 模型


NVIDIA RTX 5090 32GB (旗舰版 — 2025 年 2 月)

最佳适用: 消费级最高性能,支持 70B 模型,高分辨率视频生成

规格
价值

显存

32GB GDDR7

内存带宽

1792 GB/s

FP16 性能

约 120 TFLOPS

张量核

680(第 5 代)

TDP

575W

约 Clore.ai 每小时价格

$3.00-4.00

能力:

  • ✅ Ollama 支持 70B 模型(Q4,快速)

  • ✅ vLLM 支持 30B 模型

  • ✅ 所有图像生成模型

  • ✅ FLUX dev(1536x1536)

  • ✅ 视频生成(更长片段)

  • ✅ AnimateDiff + ControlNet

  • ✅ 模型训练(LoRA,小规模微调)

  • ✅ DeepSeek-R1 32B 蒸馏(FP16)

专业/数据中心 GPU

NVIDIA A100 40GB

最佳适用: 生产级 LLM、训练、大型模型

规格
价值

显存

40GB HBM2e

内存带宽

1555 GB/s

FP16 性能

77.97 TFLOPS

张量核

432(第 3 代)

TDP

400W

约 每小时价格

$0.15-0.20

能力:

  • ✅ Ollama 支持 70B 模型(Q4)

  • ✅ vLLM 生产级部署

  • ✅ 所有图像生成

  • ✅ FLUX dev(高质量)

  • ✅ 视频生成

  • ✅ 模型微调

  • ⚠️ 70B FP16(紧张)


NVIDIA A100 80GB

最佳适用: 70B+ 模型、视频、生产工作负载

规格
价值

显存

80GB HBM2e

内存带宽

2039 GB/s

FP16 性能

77.97 TFLOPS

张量核

432(第 3 代)

TDP

400W

约 每小时价格

$0.20-0.30

能力:

  • ✅ 所有高达 70B 的 LLM(FP16)

  • ✅ vLLM 高吞吐量服务

  • ✅ 所有图像生成

  • ✅ 长视频生成

  • ✅ 模型训练

  • ✅ DeepSeek-V3(部分)

  • ⚠️ 100B+ 模型


NVIDIA H100 80GB

最佳适用: 极致性能,最大规模模型

规格
价值

显存

80GB HBM3

内存带宽

3350 GB/s

FP16 性能

267 TFLOPS

张量核

528(第 4 代)

TDP

700W

约 每小时价格

$0.40-0.60

能力:

  • ✅ 所有模型的最大速度

  • ✅ 100B+ 参数模型

  • ✅ 多模型服务

  • ✅ 大规模训练

  • ✅ 实时视频生成

  • ✅ DeepSeek-V3(671B)

性能比较

LLM 推理(tokens/秒)

GPU
Llama 3 8B
Llama 3 70B
Mixtral 8x7B
Clore.ai $/小时

RTX 3060 12GB

25

-

-

$0.02-0.04

RTX 3090 24GB

45

8*

20*

$0.15-0.25

RTX 4090 24GB

80

15*

35*

$0.35-0.55

RTX 5080 16GB

95

-

40*

$1.50-2.00

RTX 5090 32GB

150

30*

65*

$3.00-4.00

A100 40GB

100

25

45

$0.80-1.20

A100 80GB

110

40

55

$1.20-1.80

H100 80GB

180

70

90

$2.50-3.50

*使用量化(Q4/Q8)

图像生成速度

GPU
SD 1.5(512)
SDXL(1024)
FLUX schnell
Clore.ai $/小时

RTX 3060 12GB

4 秒

15 秒

25 秒*

$0.02-0.04

RTX 3090 24GB

2 秒

7 秒

12 秒

$0.15-0.25

RTX 4090 24GB

1 秒

3 秒

5 秒

$0.35-0.55

RTX 5080 16GB

0.8 秒

2.5 秒

4 秒

$1.50-2.00

RTX 5090 32GB

0.6 秒

1.8 秒

3 秒

$3.00-4.00

A100 40GB

1.5 秒

4 秒

6 秒

$0.80-1.20

A100 80GB

1.5 秒

4 秒

5 秒

$1.20-1.80

*使用 CPU 卸载,分辨率较低

视频生成(5 秒片段)

GPU
SVD
Wan2.1
混元(Hunyuan)

RTX 3090 24GB

3 分钟

5 分钟*

-

RTX 4090 24GB

1.5 分钟

3 分钟

8 分钟*

RTX 5090 32GB

1 分钟

2 分钟

5 分钟

A100 40GB

1 分钟

2 分钟

5 分钟

A100 80GB

45 秒

1.5 分钟

3 分钟

*分辨率受限

性价比

按任务划分的最佳性价比

聊天/LLM(7B-13B 模型):

  1. 🥇 RTX 3090 24GB - 最佳性价比

  2. 🥈 RTX 3060 12GB - 成本最低

  3. 🥉 RTX 4090 24GB - 最快

图像生成(SDXL/FLUX):

  1. 🥇 RTX 3090 24GB - 平衡性好

  2. 🥈 RTX 4090 24GB - 快 2 倍

  3. 🥉 A100 40GB - 生产稳定性

大型模型(70B+):

  1. 🥇 A100 40GB - 70B 的最佳性价比

  2. 🥈 A100 80GB - 完整精度

  3. 🥉 RTX 4090 24GB - 预算选项(仅 Q4)

视频生成:

  1. 🥇 A100 40GB - 良好平衡

  2. 🥈 RTX 4090 24GB - 消费级选项

  3. 🥉 A100 80GB - 最长片段

模型训练:

  1. 🥇 A100 40GB - 标准选择

  2. 🥈 A100 80GB - 大型模型

  3. 🥉 RTX 4090 24GB - 小型模型/LoRA

多 GPU 配置

某些任务受益于多 GPU:

配置
使用场景
显存总计

2x RTX 3090

70B 推理

48GB

2x RTX 4090

快速 70B、训练

48GB

2x RTX 5090

70B FP16、快速训练

64GB

4x RTX 5090

100B+ 模型

128GB

4x A100 40GB

100B+ 模型

160GB

8x A100 80GB

DeepSeek-V3、Llama 405B

640GB

选择您的 GPU

决策流程图

省钱技巧

  1. 使用抢占订单(Spot Orders) - 比按需便宜 30-50%

  2. 从小规模开始 - 先在更便宜的 GPU 上测试

  3. 对模型进行量化 - Q4/Q8 可使更大模型占用更少显存

  4. 批量处理 - 同时处理多个请求

  5. 非高峰时段 - 可获得更好可用性,有时价格更低

📚 另见: 2025 年 AI 训练十大最便宜 GPUarrow-up-right | 最佳 AI 训练 GPU — 详细指南arrow-up-right

下一步

最后更新于

这有帮助吗?