模型兼容性

Clore.ai 的 AI 模型与 GPU 兼容性矩阵

关于哪些 AI 模型可以在 CLORE.AI 的哪些 GPU 上运行的完整指南。

circle-check

快速参考

语言模型(LLM)

A100
参数量
最小显存
推荐
量化

Llama 3.2

1B

2GB

4GB

Q4、Q8、FP16

Llama 3.2

3B

4GB

6GB

Q4、Q8、FP16

Llama 3.1/3

8B

6GB

12GB

Q4、Q8、FP16

Mistral

7B

6GB

12GB

Q4、Q8、FP16

Qwen 2.5

7B

6GB

12GB

Q4、Q8、FP16

Qwen 2.5

14B

12GB

16GB

Q4、Q8

Qwen 2.5

32B

20GB

24GB

Q4、Q8

Llama 3.1

70B

40GB

48GB

Q4、Q8

Qwen 2.5

72B

48GB

80GB

Q4、Q8

Mixtral

8x7B

24GB

48GB

Q4

DeepSeek-V3

671B

320GB+

640GB

FP8

DeepSeek-R1

671B

320GB+

8x H100

FP8,推理模型

DeepSeek-R1-Distill

32B

20GB

2x A100 / RTX 5090

Q4/Q8

图像生成模型

A100
最小显存
推荐
注意事项

SD 1.5

4GB

8GB

原生 512x512

SD 2.1

6GB

8GB

原生 768x768

SDXL

8GB

12GB

原生 1024x1024

SDXL Turbo

8GB

12GB

1-4 步

SD3.5 Large (8B)

16GB

24GB

1024x1024,进阶质量

FLUX.1 schnell

12GB

16GB

4 步,快速

FLUX.1 dev

16GB

24GB

20-50 步

TRELLIS

16GB

24GB(RTX 4090)

从图像生成 3D

视频生成模型

A100
最小显存
推荐
输出

Stable Video Diffusion

16GB

24GB

4 秒,576x1024

AnimateDiff

12GB

16GB

2-4 秒

LTX-Video

16GB

24GB(RTX 4090/3090)

5 秒,768x512,极快

Wan2.1

24GB

40GB

5 秒,480p-720p

混元视频(Hunyuan Video)

40GB

80GB

5 秒,720p

OpenSora

24GB

40GB

可变

音频模型

A100
最小显存
推荐
任务

Whisper tiny

1GB

2GB

转录

Whisper base

1GB

2GB

转录

Whisper small

2GB

4GB

转录

Whisper medium

4GB

6GB

转录

Whisper large-v3

6GB

10GB

转录

Bark

8GB

12GB

文本转语音

Stable Audio

8GB

12GB

音乐生成

视觉与视觉-语言模型

A100
最小显存
推荐
任务

Llama 3.2 Vision 11B

12GB

16GB

图像理解

Llama 3.2 Vision 90B

48GB

80GB

图像理解

LLaVA 7B

8GB

12GB

视觉问答

LLaVA 13B

16GB

24GB

视觉问答

Qwen2.5-VL 7B

16GB

24GB(RTX 4090)

图像/视频/文档 OCR

Qwen2.5-VL 72B

48GB

2x A100 80GB

最大视觉-语言能力

微调与训练工具

工具 / 方法
最小显存
推荐 GPU
任务

Unsloth QLoRA 7B

12GB

RTX 3090 24GB

QLoRA 提速 2 倍,显存需求低

Unsloth QLoRA 13B

16GB

RTX 4090 24GB

快速微调

LoRA(标准)

12GB

速度

参数高效的微调

完整微调 7B

40GB

按日费率

最高质量训练


详细兼容性表

按 GPU 的 LLM

GPU
最大模型(Q4)
最大模型(Q8)
最大模型(FP16)

RTX 3060 12GB

13B

7B

3B

RTX 3070 8GB

7B

3B

1B

RTX 3080 10GB

7B

7B

3B

RTX 3090 24GB

30B

13B

7B

RTX 4070 Ti 12GB

13B

7B

3B

RTX 4080 16GB

14B

7B

7B

RTX 4090 24GB

30B

13B

7B

RTX 5090 32GB

70B

14B

13B

按日费率

70B

30B

14B

4 小时会话

70B

70B

30B

H100 80GB

70B

70B

30B

按 GPU 的图像生成

GPU
SD 1.5
SDXL
FLUX schnell
FLUX dev

RTX 3060 12GB

✅ 512

✅ 768

⚠️ 512*

RTX 3070 8GB

✅ 512

⚠️ 512

RTX 3080 10GB

✅ 512

✅ 768

⚠️ 512*

RTX 3090 24GB

✅ 768

✅ 1024

✅ 1024

⚠️ 768*

RTX 4070 Ti 12GB

✅ 512

✅ 768

⚠️ 512*

RTX 4080 16GB

✅ 768

✅ 1024

✅ 768

⚠️ 512*

RTX 4090 24GB

✅ 1024

✅ 1024

✅ 1024

✅ 1024

RTX 5090 32GB

✅ 1024

✅ 1024

✅ 1536

✅ 1536

按日费率

✅ 1024

✅ 1024

✅ 1024

✅ 1024

4 小时会话

✅ 2048

✅ 2048

✅ 1536

✅ 1536

*使用 CPU 卸载或减小批量大小时

按 GPU 的视频生成

GPU
SVD
AnimateDiff
Wan2.1
混元(Hunyuan)

RTX 3060 12GB

⚠️ 短片

RTX 3090 24GB

✅ 2-4 秒

⚠️ 480p

RTX 4090 24GB

✅ 4 秒

✅ 480p

⚠️ 短片

RTX 5090 32GB

✅ 6 秒

✅ 720p

✅ 5 秒

按日费率

✅ 4 秒

✅ 720p

✅ 5 秒

4 小时会话

✅ 8 秒

✅ 720p

✅ 10 秒


量化指南

什么是量化?

量化通过降低模型精度以适应更小的显存:

格式
位数
显存减少
质量损失

FP32

32

基线

FP16

16

50%

最小

BF16

16

50%

最小

FP8

8

75%

Q8

8

75%

Q6_K

6

81%

Q5_K_M

5

84%

中等

Q4_K_M

4

87%

中等

Q3_K_M

3

91%

可察觉

Q2_K

2

94%

显著

显存计算器

公式: 显存(GB)≈ 参数量(B)× 每参数字节数

模型大小
FP16
Q8
Q4

1B

2 GB

1 GB

0.5 GB

3B

6 GB

3 GB

1.5 GB

7B

14 GB

7 GB

3.5 GB

8B

16 GB

8 GB

4 GB

13B

26 GB

13 GB

6.5 GB

14B

28 GB

14 GB

7 GB

30B

60 GB

30 GB

15 GB

32B

64 GB

32 GB

16 GB

70B

140 GB

70 GB

35 GB

72B

144 GB

72 GB

36 GB

*为 KV 缓存和开销额外添加约 20%

按使用场景推荐的量化

模型变体
推荐
原因

聊天/通用

Q4_K_M

速度与质量的良好平衡

编程

Q5_K_M+

对代码有更好的准确性

创意写作

Q4_K_M

速度更重要

分析

Q6_K+

需要更高精度

生产环境

FP16/BF16

最高质量


上下文长度与显存

上下文如何影响显存

每个模型都有一个上下文窗口(最大 token 数)。上下文越长 = 显存需求越多:

A100
默认上下文
最大上下文
每 1K token 的显存

Llama 3 8B

8K

128K

约 0.3 GB

Llama 3 70B

8K

128K

约 0.5 GB

Qwen 2.5 7B

8K

128K

约 0.25 GB

Mistral 7B

8K

32K

约 0.25 GB

Mixtral 8x7B

32K

32K

约 0.4 GB

按 GPU 的上下文(Llama 3 8B Q4)

GPU
舒适的上下文
最大上下文

RTX 3060 12GB

16K

32K

RTX 3090 24GB

64K

96K

RTX 4090 24GB

64K

96K

RTX 5090 32GB

96K

128K

按日费率

96K

128K

4 小时会话

128K

128K


多 GPU 配置

张量并行

将一个模型拆分到多个 GPU:

配置
总显存
最大模型(FP16)

2x RTX 3090

48GB

30B

2x RTX 4090

48GB

30B

2x RTX 5090

64GB

32B

4x RTX 5090

128GB

70B

2x A100 40GB

80GB

70B

4x A100 40GB

160GB

100B+

8x A100 80GB

640GB

DeepSeek-V3

vLLM 多 GPU


具体模型指南

Llama 3.1 系列

变体
参数量
最小 GPU
推荐设置

Llama 3.2 1B

1B

任意 4GB

按小时费率

Llama 3.2 3B

3B

任意 6GB

按小时费率

Llama 3.1 8B

8B

按小时费率

速度

Llama 3.1 70B

70B

按日费率

2x A100 40GB

Llama 3.1 405B

405B

8x A100 80GB

8x H100

Mistral/Mixtral 系列

变体
参数量
最小 GPU
推荐设置

Mistral 7B

7B

按小时费率

速度

Mixtral 8x7B

46.7B

速度

按日费率

Mixtral 8x22B

141B

2x A100 80GB

4x A100 80GB

Qwen 2.5 系列

变体
参数量
最小 GPU
推荐设置

Qwen 2.5 0.5B

0.5B

任意 2GB

任意 4GB

Qwen 2.5 1.5B

1.5B

任意 4GB

按小时费率

Qwen 2.5 3B

3B

任意 6GB

按小时费率

Qwen 2.5 7B

7B

按小时费率

速度

Qwen 2.5 14B

14B

速度

512x512

Qwen 2.5 32B

32B

512x512

按日费率

Qwen 2.5 72B

72B

按日费率

4 小时会话

DeepSeek 系列模型

变体
参数量
最小 GPU
推荐设置

DeepSeek-Coder 6.7B

6.7B

按小时费率

速度

DeepSeek-Coder 33B

33B

512x512

按日费率

DeepSeek-V2-Lite

15.7B

速度

按日费率

DeepSeek-V3

671B

8x A100 80GB

8x H100

DeepSeek-R1

671B

8x A100 80GB

8x H100(FP8)

DeepSeek-R1-Distill-Qwen-32B

32B

RTX 5090 32GB

2x A100 40GB

DeepSeek-R1-Distill-Qwen-7B

7B

RTX 3090 24GB

512x512


# 使用固定种子以获得一致结果

“CUDA 内存不足”

  1. 减少量化: Q8 → Q4

  2. 降低上下文长度: 减少 max_tokens

  3. 启用 CPU 卸载: --cpu-offloadenable_model_cpu_offload()

  4. 使用更小的批量: batch_size=1

  5. 尝试不同的 GPU: 需要更多显存

“模型过大”

  1. 使用量化版本: GGUF Q4 模型

  2. 使用多 GPU: 张量并行

  3. 卸载到 CPU: 更慢但可行

  4. 选择更小的模型: 用 7B 代替 13B

“生成速度慢”

  1. 升级 GPU: 更多显存 = 更少卸载

  2. 使用更快的量化: Q4 比 Q8 更快

  3. 减少上下文: 更短 = 更快

  4. 启用 flash attention: --flash-attn

使用以下方式支付

最后更新于

这有帮助吗?