模型兼容性
Clore.ai 的 AI 模型与 GPU 兼容性矩阵
快速参考
语言模型(LLM)
A100
参数量
最小显存
推荐
量化
图像生成模型
A100
最小显存
推荐
注意事项
视频生成模型
A100
最小显存
推荐
输出
音频模型
A100
最小显存
推荐
任务
视觉与视觉-语言模型
A100
最小显存
推荐
任务
微调与训练工具
工具 / 方法
最小显存
推荐 GPU
任务
详细兼容性表
按 GPU 的 LLM
GPU
最大模型(Q4)
最大模型(Q8)
最大模型(FP16)
按 GPU 的图像生成
GPU
SD 1.5
SDXL
FLUX schnell
FLUX dev
按 GPU 的视频生成
GPU
SVD
AnimateDiff
Wan2.1
混元(Hunyuan)
量化指南
什么是量化?
格式
位数
显存减少
质量损失
显存计算器
模型大小
FP16
Q8
Q4
按使用场景推荐的量化
模型变体
推荐
原因
上下文长度与显存
上下文如何影响显存
A100
默认上下文
最大上下文
每 1K token 的显存
按 GPU 的上下文(Llama 3 8B Q4)
GPU
舒适的上下文
最大上下文
多 GPU 配置
张量并行
配置
总显存
最大模型(FP16)
vLLM 多 GPU
具体模型指南
Llama 3.1 系列
变体
参数量
最小 GPU
推荐设置
Mistral/Mixtral 系列
变体
参数量
最小 GPU
推荐设置
Qwen 2.5 系列
变体
参数量
最小 GPU
推荐设置
DeepSeek 系列模型
变体
参数量
最小 GPU
推荐设置
# 使用固定种子以获得一致结果
“CUDA 内存不足”
“模型过大”
“生成速度慢”
使用以下方式支付
最后更新于
这有帮助吗?