GPU 对比
Clore.ai 上 AI 工作负载的完整 GPU 对比指南
CLORE.AI 上可用于 AI 工作负载的 GPU 完整对比。
在此为您的任务寻找合适的 GPU: CLORE.AI 市场.
快速推荐
与 AI 聊天(7B)
RTX 3060 12GB
RTX 3090 24GB
RTX 5090 32GB
与 AI 聊天(70B)
RTX 3090 24GB
RTX 5090 32GB
A100 80GB
图像生成(SD 1.5)
RTX 3060 12GB
RTX 3090 24GB
RTX 5090 32GB
图像生成(SDXL)
RTX 3090 24GB
RTX 4090 24GB
RTX 5090 32GB
图像生成(FLUX)
RTX 3090 24GB
RTX 5090 32GB
A100 80GB
视频生成
RTX 4090 24GB
RTX 5090 32GB
A100 80GB
模型训练
A100 40GB
A100 80GB
H100 80GB
消费级 GPU
NVIDIA RTX 3060 12GB
最佳适用: 预算型 AI、SD 1.5、小型 LLM
显存
12GB GDDR6
内存带宽
360 GB/s
FP16 性能
12.7 TFLOPS
张量核
112(第 3 代)
TDP
170W
约 每小时价格
$0.02-0.04
能力:
✅ Ollama 支持 7B 模型(Q4)
✅ Stable Diffusion 1.5(512x512)
✅ SDXL(768x768,较慢)
⚠️ FLUX schnell(需 CPU 卸载)
❌ 大模型(>13B)
❌ 视频生成
NVIDIA RTX 3070/3070 Ti 8GB
最佳适用: SD 1.5、轻量级任务
显存
8GB GDDR6X
内存带宽
448-608 GB/s
FP16 性能
20.3 TFLOPS
张量核
184(第 3 代)
TDP
220-290W
约 每小时价格
$0.02-0.04
能力:
✅ Ollama 支持 7B 模型(Q4)
✅ Stable Diffusion 1.5(512x512)
⚠️ SDXL(仅低分辨率)
❌ FLUX(显存不足)
❌ 模型 >7B
❌ 视频生成
NVIDIA RTX 3080/3080 Ti 10-12GB
最佳适用: 通用 AI 任务,良好平衡
显存
10-12GB GDDR6X
内存带宽
760-912 GB/s
FP16 性能
29.8-34.1 TFLOPS
张量核
272-320(第 3 代)
TDP
320-350W
约 每小时价格
$0.04-0.06
能力:
✅ Ollama 支持 13B 模型
✅ Stable Diffusion 1.5/2.1
✅ SDXL(1024x1024)
⚠️ FLUX schnell(需卸载)
❌ 大模型(>13B)
❌ 视频生成
NVIDIA RTX 3090/3090 Ti 24GB
最佳适用: SDXL、13B-30B LLM、ControlNet
显存
24GB GDDR6X
内存带宽
936 GB/s
FP16 性能
35.6 TFLOPS
张量核
328(第 3 代)
TDP
350-450W
约 每小时价格
$0.05-0.08
能力:
✅ Ollama 支持 30B 模型
✅ vLLM 支持 13B 模型
✅ 所有 Stable Diffusion 模型
✅ SDXL + ControlNet
✅ FLUX schnell(1024x1024)
⚠️ FLUX dev(需卸载)
⚠️ 视频(短片)
NVIDIA RTX 4070 Ti 12GB
最佳适用: SD 1.5 快速、高效推理
显存
12GB GDDR6X
内存带宽
504 GB/s
FP16 性能
40.1 TFLOPS
张量核
184(第 4 代)
TDP
285W
约 每小时价格
$0.04-0.06
能力:
✅ Ollama 支持 7B 模型(快速)
✅ Stable Diffusion 1.5(非常快)
✅ SDXL(768x768)
⚠️ FLUX schnell(分辨率受限)
❌ 大模型(>13B)
❌ 视频生成
NVIDIA RTX 4080 16GB
最佳适用: SDXL 生产级,13B LLM
显存
16GB GDDR6X
内存带宽
717 GB/s
FP16 性能
48.7 TFLOPS
张量核
304(第 4 代)
TDP
320W
约 每小时价格
$0.06-0.09
能力:
✅ Ollama 支持 13B 模型(快速)
✅ vLLM 支持 7B 模型
✅ 所有 Stable Diffusion 模型
✅ SDXL + ControlNet
✅ FLUX schnell(1024x1024)
⚠️ FLUX dev(受限)
⚠️ 短视频片段
NVIDIA RTX 4090 24GB
最佳适用: 高端消费级性能,FLUX,视频
显存
24GB GDDR6X
内存带宽
1008 GB/s
FP16 性能
82.6 TFLOPS
张量核
512(第 4 代)
TDP
450W
约 每小时价格
$0.08-0.12
能力:
✅ Ollama 支持 30B 模型(快速)
✅ vLLM 支持 13B 模型
✅ 所有图像生成模型
✅ FLUX dev(1024x1024)
✅ 视频生成(短片)
✅ AnimateDiff
⚠️ 70B 模型(仅 Q4)
NVIDIA RTX 5080 16GB (新品 — 2025 年 2 月)
最佳适用: 快速 SDXL/FLUX,13B-30B LLM,中高端高性能
显存
16GB GDDR7
内存带宽
960 GB/s
FP16 性能
约 80 TFLOPS
张量核
336(第 5 代)
TDP
360W
约 Clore.ai 每小时价格
$1.50-2.00
能力:
✅ Ollama 支持 13B 模型(快速)
✅ vLLM 支持 13B 模型
✅ 所有 Stable Diffusion 模型
✅ SDXL + ControlNet(非常快)
✅ FLUX schnell/dev(1024x1024)
✅ 短视频片段
⚠️ 30B 模型(仅 Q4)
❌ 70B 模型
NVIDIA RTX 5090 32GB (旗舰版 — 2025 年 2 月)
最佳适用: 消费级最高性能,支持 70B 模型,高分辨率视频生成
显存
32GB GDDR7
内存带宽
1792 GB/s
FP16 性能
约 120 TFLOPS
张量核
680(第 5 代)
TDP
575W
约 Clore.ai 每小时价格
$3.00-4.00
能力:
✅ Ollama 支持 70B 模型(Q4,快速)
✅ vLLM 支持 30B 模型
✅ 所有图像生成模型
✅ FLUX dev(1536x1536)
✅ 视频生成(更长片段)
✅ AnimateDiff + ControlNet
✅ 模型训练(LoRA,小规模微调)
✅ DeepSeek-R1 32B 蒸馏(FP16)
专业/数据中心 GPU
NVIDIA A100 40GB
最佳适用: 生产级 LLM、训练、大型模型
显存
40GB HBM2e
内存带宽
1555 GB/s
FP16 性能
77.97 TFLOPS
张量核
432(第 3 代)
TDP
400W
约 每小时价格
$0.15-0.20
能力:
✅ Ollama 支持 70B 模型(Q4)
✅ vLLM 生产级部署
✅ 所有图像生成
✅ FLUX dev(高质量)
✅ 视频生成
✅ 模型微调
⚠️ 70B FP16(紧张)
NVIDIA A100 80GB
最佳适用: 70B+ 模型、视频、生产工作负载
显存
80GB HBM2e
内存带宽
2039 GB/s
FP16 性能
77.97 TFLOPS
张量核
432(第 3 代)
TDP
400W
约 每小时价格
$0.20-0.30
能力:
✅ 所有高达 70B 的 LLM(FP16)
✅ vLLM 高吞吐量服务
✅ 所有图像生成
✅ 长视频生成
✅ 模型训练
✅ DeepSeek-V3(部分)
⚠️ 100B+ 模型
NVIDIA H100 80GB
最佳适用: 极致性能,最大规模模型
显存
80GB HBM3
内存带宽
3350 GB/s
FP16 性能
267 TFLOPS
张量核
528(第 4 代)
TDP
700W
约 每小时价格
$0.40-0.60
能力:
✅ 所有模型的最大速度
✅ 100B+ 参数模型
✅ 多模型服务
✅ 大规模训练
✅ 实时视频生成
✅ DeepSeek-V3(671B)
性能比较
LLM 推理(tokens/秒)
RTX 3060 12GB
25
-
-
$0.02-0.04
RTX 3090 24GB
45
8*
20*
$0.15-0.25
RTX 4090 24GB
80
15*
35*
$0.35-0.55
RTX 5080 16GB
95
-
40*
$1.50-2.00
RTX 5090 32GB
150
30*
65*
$3.00-4.00
A100 40GB
100
25
45
$0.80-1.20
A100 80GB
110
40
55
$1.20-1.80
H100 80GB
180
70
90
$2.50-3.50
*使用量化(Q4/Q8)
图像生成速度
RTX 3060 12GB
4 秒
15 秒
25 秒*
$0.02-0.04
RTX 3090 24GB
2 秒
7 秒
12 秒
$0.15-0.25
RTX 4090 24GB
1 秒
3 秒
5 秒
$0.35-0.55
RTX 5080 16GB
0.8 秒
2.5 秒
4 秒
$1.50-2.00
RTX 5090 32GB
0.6 秒
1.8 秒
3 秒
$3.00-4.00
A100 40GB
1.5 秒
4 秒
6 秒
$0.80-1.20
A100 80GB
1.5 秒
4 秒
5 秒
$1.20-1.80
*使用 CPU 卸载,分辨率较低
视频生成(5 秒片段)
RTX 3090 24GB
3 分钟
5 分钟*
-
RTX 4090 24GB
1.5 分钟
3 分钟
8 分钟*
RTX 5090 32GB
1 分钟
2 分钟
5 分钟
A100 40GB
1 分钟
2 分钟
5 分钟
A100 80GB
45 秒
1.5 分钟
3 分钟
*分辨率受限
性价比
按任务划分的最佳性价比
聊天/LLM(7B-13B 模型):
🥇 RTX 3090 24GB - 最佳性价比
🥈 RTX 3060 12GB - 成本最低
🥉 RTX 4090 24GB - 最快
图像生成(SDXL/FLUX):
🥇 RTX 3090 24GB - 平衡性好
🥈 RTX 4090 24GB - 快 2 倍
🥉 A100 40GB - 生产稳定性
大型模型(70B+):
🥇 A100 40GB - 70B 的最佳性价比
🥈 A100 80GB - 完整精度
🥉 RTX 4090 24GB - 预算选项(仅 Q4)
视频生成:
🥇 A100 40GB - 良好平衡
🥈 RTX 4090 24GB - 消费级选项
🥉 A100 80GB - 最长片段
模型训练:
🥇 A100 40GB - 标准选择
🥈 A100 80GB - 大型模型
🥉 RTX 4090 24GB - 小型模型/LoRA
多 GPU 配置
某些任务受益于多 GPU:
2x RTX 3090
70B 推理
48GB
2x RTX 4090
快速 70B、训练
48GB
2x RTX 5090
70B FP16、快速训练
64GB
4x RTX 5090
100B+ 模型
128GB
4x A100 40GB
100B+ 模型
160GB
8x A100 80GB
DeepSeek-V3、Llama 405B
640GB
选择您的 GPU
决策流程图
省钱技巧
使用抢占订单(Spot Orders) - 比按需便宜 30-50%
从小规模开始 - 先在更便宜的 GPU 上测试
对模型进行量化 - Q4/Q8 可使更大模型占用更少显存
批量处理 - 同时处理多个请求
非高峰时段 - 可获得更好可用性,有时价格更低
下一步
模型兼容性矩阵 - 哪些模型可在哪些 GPU 上运行
Docker 镜像目录 - 可直接使用的镜像
快速入门指南 - 5 分钟上手
最后更新于
这有帮助吗?