GPU 对比

Clore.ai 上 AI 工作负载的完整 GPU 对比指南

在 CLORE.AI 上可用于 AI 工作负载的 GPU 完整对比。

circle-check

快速推荐

您的任务
预算首选
最佳性价比
极致性能

与 AI 聊天(7B)

RTX 3060 12GB

RTX 3090 24GB

RTX 5090 32GB

与 AI 聊天(70B)

RTX 3090 24GB

RTX 5090 32GB

4 小时会话

图像生成(SD 1.5)

RTX 3060 12GB

RTX 3090 24GB

RTX 5090 32GB

图像生成(SDXL)

RTX 3090 24GB

RTX 4090 24GB

RTX 5090 32GB

图像生成(FLUX)

RTX 3090 24GB

RTX 5090 32GB

4 小时会话

视频生成

RTX 4090 24GB

RTX 5090 32GB

4 小时会话

模型训练

按日费率

4 小时会话

H100 80GB

消费级 GPU

NVIDIA RTX 3060 12GB

最佳适用: 预算 AI、SD 1.5、小型 LLM

规格
数值

显存

12GB GDDR6

内存带宽

360 GB/s

FP16 性能

12.7 TFLOPS

张量核心

112(第3代)

TDP(功耗)

170W

~价格/小时

$0.02-0.04

能力:

  • ✅ Ollama 支持 7B 模型(Q4)

  • ✅ Stable Diffusion 1.5(512x512)

  • ✅ SDXL(768x768,较慢)

  • ⚠️ FLUX schnell(需 CPU 卸载)

  • ❌ 大型模型(>13B)

  • ❌ 视频生成


NVIDIA RTX 3070/3070 Ti 8GB

最佳适用: SD 1.5、轻量任务

规格
数值

显存

8GB GDDR6X

内存带宽

448-608 GB/s

FP16 性能

20.3 TFLOPS

张量核心

184(第3代)

TDP(功耗)

220-290W

~价格/小时

$0.02-0.04

能力:

  • ✅ Ollama 支持 7B 模型(Q4)

  • ✅ Stable Diffusion 1.5(512x512)

  • ⚠️ SDXL(仅低分辨率)

  • ❌ FLUX(显存不足)

  • ❌ 模型 >7B

  • ❌ 视频生成


NVIDIA RTX 3080/3080 Ti 10-12GB

最佳适用: 通用 AI 任务,均衡表现

规格
数值

显存

10-12GB GDDR6X

内存带宽

760-912 GB/s

FP16 性能

29.8-34.1 TFLOPS

张量核心

272-320(第3代)

TDP(功耗)

320-350W

~价格/小时

$0.04-0.06

能力:

  • ✅ Ollama 支持 13B 模型

  • ✅ Stable Diffusion 1.5/2.1

  • ✅ SDXL(1024x1024)

  • ⚠️ FLUX schnell(需卸载)

  • ❌ 大型模型(>13B)

  • ❌ 视频生成


NVIDIA RTX 3090/3090 Ti 24GB

最佳适用: SDXL、13B-30B LLM、ControlNet

规格
数值

显存

24GB GDDR6X

内存带宽

936 GB/s

FP16 性能

35.6 TFLOPS

张量核心

328(第3代)

TDP(功耗)

350-450W

~价格/小时

$0.05-0.08

能力:

  • ✅ Ollama 支持 30B 模型

  • ✅ vLLM 支持 13B 模型

  • ✅ 运行所有 Stable Diffusion 模型

  • ✅ SDXL + ControlNet

  • ✅ FLUX schnell(1024x1024)

  • ⚠️ FLUX dev(需卸载)

  • ⚠️ 视频(短片)


NVIDIA RTX 4070 Ti 12GB

最佳适用: 快速 SD 1.5,高效推理

规格
数值

显存

12GB GDDR6X

内存带宽

504 GB/s

FP16 性能

40.1 TFLOPS

张量核心

184(第4代)

TDP(功耗)

285W

~价格/小时

$0.04-0.06

能力:

  • ✅ Ollama 支持 7B 模型(快速)

  • ✅ Stable Diffusion 1.5(非常快)

  • ✅ SDXL(768x768)

  • ⚠️ FLUX schnell(分辨率受限)

  • ❌ 大型模型(>13B)

  • ❌ 视频生成


NVIDIA RTX 4080 16GB

最佳适用: SDXL 生产、13B LLM

规格
数值

显存

16GB GDDR6X

内存带宽

717 GB/s

FP16 性能

48.7 TFLOPS

张量核心

304(第4代)

TDP(功耗)

320W

~价格/小时

$0.06-0.09

能力:

  • ✅ Ollama 支持 13B 模型(快速)

  • ✅ vLLM 支持 7B 模型

  • ✅ 运行所有 Stable Diffusion 模型

  • ✅ SDXL + ControlNet

  • ✅ FLUX schnell(1024x1024)

  • ⚠️ FLUX dev(受限)

  • ⚠️ 短视频片段


NVIDIA RTX 4090 24GB

最佳适用: 高端消费级性能,FLUX,视频

规格
数值

显存

24GB GDDR6X

内存带宽

1008 GB/s

FP16 性能

82.6 TFLOPS

张量核心

512(第4代)

TDP(功耗)

450W

~价格/小时

$0.08-0.12

能力:

  • ✅ Ollama 支持 30B 模型(快速)

  • ✅ vLLM 支持 13B 模型

  • ✅ 支持所有图像生成模型

  • ✅ FLUX dev(1024x1024)

  • ✅ 视频生成(短片)

  • ✅ AnimateDiff

  • ⚠️ 70B 模型(仅 Q4)


NVIDIA RTX 5080 16GB (新品 — 2025 年 2 月)

最佳适用: 快速 SDXL/FLUX、13B-30B LLM,高性能中端

规格
数值

显存

16GB GDDR7

内存带宽

960 GB/s

FP16 性能

~80 TFLOPS

张量核心

336(第5代)

TDP(功耗)

360W

~Clore.ai 价格/小时

$1.50-2.00

能力:

  • ✅ Ollama 支持 13B 模型(快速)

  • ✅ vLLM 支持 13B 模型

  • ✅ 运行所有 Stable Diffusion 模型

  • ✅ SDXL + ControlNet(非常快)

  • ✅ FLUX schnell/dev(1024x1024)

  • ✅ 短视频片段

  • ⚠️ 30B 模型(仅 Q4)

  • ❌ 70B 模型


NVIDIA RTX 5090 32GB (旗舰 — 2025 年 2 月)

最佳适用: 极致消费级性能,支持 70B 模型,高分辨率视频生成

规格
数值

显存

32GB GDDR7

内存带宽

1792 GB/s

FP16 性能

~120 TFLOPS

张量核心

680(第5代)

TDP(功耗)

575W

~Clore.ai 价格/小时

$3.00-4.00

能力:

  • ✅ Ollama 支持 70B 模型(Q4,快速)

  • ✅ vLLM 支持 30B 模型

  • ✅ 支持所有图像生成模型

  • ✅ FLUX dev(1536x1536)

  • ✅ 视频生成(更长片段)

  • ✅ AnimateDiff + ControlNet

  • ✅ 模型训练(LoRA、小型微调)

  • ✅ DeepSeek-R1 32B 蒸馏(FP16)

专业/数据中心 GPU

NVIDIA A100 40GB

最佳适用: 生产级 LLM、训练、大型模型

规格
数值

显存

40GB HBM2e

内存带宽

1555 GB/s

FP16 性能

77.97 TFLOPS

张量核心

432(第3代)

TDP(功耗)

400W

~价格/小时

$0.15-0.20

能力:

  • ✅ Ollama 支持 70B 模型(Q4)

  • ✅ vLLM 生产级部署

  • ✅ 支持所有图像生成

  • ✅ FLUX dev(高质量)

  • ✅ 视频生成

  • ✅ 模型微调

  • ⚠️ 70B FP16(资源紧张)


NVIDIA A100 80GB

最佳适用: 70B+ 模型、视频、生产工作负载

规格
数值

显存

80GB HBM2e

内存带宽

2039 GB/s

FP16 性能

77.97 TFLOPS

张量核心

432(第3代)

TDP(功耗)

400W

~价格/小时

$0.20-0.30

能力:

  • ✅ 支持所有至 70B 的 LLM(FP16)

  • ✅ vLLM 高吞吐量服务

  • ✅ 支持所有图像生成

  • ✅ 长时视频生成

  • ✅ 模型训练

  • ✅ 部分支持 DeepSeek-V3

  • ⚠️ 100B+ 模型


NVIDIA H100 80GB

最佳适用: 极致性能、最大型号支持

规格
数值

显存

80GB HBM3

内存带宽

3350 GB/s

FP16 性能

267 TFLOPS

张量核心

528(第4代)

TDP(功耗)

700W

~价格/小时

$0.40-0.60

能力:

  • ✅ 所有模型的最高速运行

  • ✅ 支持 100B+ 参数模型

  • ✅ 多模型服务

  • ✅ 大规模训练

  • ✅ 实时视频生成

  • ✅ DeepSeek-V3(671B)

性能对比

LLM 推理(标记/秒)

GPU
Llama 3 8B
Llama 3 70B
Mixtral 8x7B
Clore.ai $/小时

RTX 3060 12GB

25

-

-

$0.02-0.04

RTX 3090 24GB

45

8*

20*

$0.15-0.25

RTX 4090 24GB

80

15*

35*

$0.35-0.55

RTX 5080 16GB

95

-

40*

$1.50-2.00

RTX 5090 32GB

150

30*

65*

$3.00-4.00

按日费率

100

25

45

$0.80-1.20

4 小时会话

110

40

55

$1.20-1.80

H100 80GB

180

70

90

$2.50-3.50

*使用量化(Q4/Q8)时

图像生成速度

GPU
SD 1.5(512)
SDXL(1024)
FLUX schnell
Clore.ai $/小时

RTX 3060 12GB

4 秒

15 秒

25 秒*

$0.02-0.04

RTX 3090 24GB

2 秒

7 秒

12 秒

$0.15-0.25

RTX 4090 24GB

1 秒

3 秒

5 秒

$0.35-0.55

RTX 5080 16GB

0.8 秒

2.5 秒

4 秒

$1.50-2.00

RTX 5090 32GB

0.6 秒

1.8 秒

3 秒

$3.00-4.00

按日费率

1.5 秒

4 秒

6 秒

$0.80-1.20

4 小时会话

1.5 秒

4 秒

5 秒

$1.20-1.80

*需 CPU 卸载、较低分辨率

视频生成(5 秒片段)

GPU
SVD
Wan2.1
混元(Hunyuan)

RTX 3090 24GB

3 分钟

5 分钟*

-

RTX 4090 24GB

1.5 分钟

3 分钟

8 分钟*

RTX 5090 32GB

1 分钟

2 分钟

5 分钟

按日费率

1 分钟

2 分钟

5 分钟

4 小时会话

45 秒

1.5 分钟

3 分钟

*分辨率受限

性价比

按任务的最佳性价比

聊天/LLM(7B-13B 模型):

  1. 🥇 RTX 3090 24GB - 最佳价/性能比

  2. 🥈 RTX 3060 12GB - 成本最低

  3. 🥉 RTX 4090 24GB - 速度最快

图像生成(SDXL/FLUX):

  1. 🥇 RTX 3090 24GB - 平衡良好

  2. 🥈 RTX 4090 24GB - 快 2 倍

  3. 🥉 A100 40GB - 生产稳定性

大型模型(70B+):

  1. 🥇 A100 40GB - 70B 的最佳性价比

  2. 🥈 A100 80GB - 全精度

  3. 🥉 RTX 4090 24GB - 预算选项(仅 Q4)

视频生成:

  1. 🥇 A100 40GB - 平衡良好

  2. 🥈 RTX 4090 24GB - 消费级选项

  3. 🥉 A100 80GB - 最长片段

模型训练:

  1. 🥇 A100 40GB - 标准选择

  2. 🥈 A100 80GB - 大型模型

  3. 🥉 RTX 4090 24GB - 小模型/LoRA

多 GPU 配置

某些任务受益于多卡协同:

配置
模型变体
显存总量

2x RTX 3090

70B 推理

48GB

2x RTX 4090

快速 70B、训练

48GB

2x RTX 5090

70B FP16、快速训练

64GB

4x RTX 5090

100B+ 模型

128GB

4x A100 40GB

100B+ 模型

160GB

8x A100 80GB

DeepSeek-V3、Llama 405B

640GB

选择您的 GPU

决策流程图

省钱小贴士

  1. 使用 Spot 订单 - 比按需便宜 30-50%

  2. 从小开始 - 先在更便宜的 GPU 上测试

  3. 对模型进行量化 - Q4/Q8 使更大模型占用更少显存

  4. "专业影棚柔光箱" - 同时处理多个请求

  5. 非高峰时段 - 更好的可用性,有时价格更低

使用以下方式支付

最后更新于

这有帮助吗?