# 模型兼容性

关于哪些 AI 模型可以在 CLORE.AI 的哪些 GPU 上运行的完整指南。

{% hint style="success" %}
在以下位置查找具有合适显存的 GPU [CLORE.AI 市场](https://clore.ai/marketplace).
{% endhint %}

## 快速参考

### 语言模型（LLM）

| A100                    | 参数量      | 最小显存       | 推荐                     | 量化           |
| ----------------------- | -------- | ---------- | ---------------------- | ------------ |
| Llama 3.2               | 1B       | 2GB        | 4GB                    | Q4、Q8、FP16   |
| Llama 3.2               | 3B       | 4GB        | 6GB                    | Q4、Q8、FP16   |
| Llama 3.1/3             | 8B       | 6GB        | 12GB                   | Q4、Q8、FP16   |
| Mistral                 | 7B       | 6GB        | 12GB                   | Q4、Q8、FP16   |
| Qwen 2.5                | 7B       | 6GB        | 12GB                   | Q4、Q8、FP16   |
| Qwen 2.5                | 14B      | 12GB       | 16GB                   | Q4、Q8        |
| Qwen 2.5                | 32B      | 20GB       | 24GB                   | Q4、Q8        |
| Llama 3.1               | 70B      | 40GB       | 48GB                   | Q4、Q8        |
| Qwen 2.5                | 72B      | 48GB       | 80GB                   | Q4、Q8        |
| Mixtral                 | 8x7B     | 24GB       | 48GB                   | Q4           |
| DeepSeek-V3             | 671B     | 320GB+     | 640GB                  | FP8          |
| **DeepSeek-R1**         | **671B** | **320GB+** | **8x H100**            | **FP8，推理模型** |
| **DeepSeek-R1-Distill** | **32B**  | **20GB**   | **2x A100 / RTX 5090** | **Q4/Q8**    |

### 图像生成模型

| A100                 | 最小显存     | 推荐                 | 注意事项               |
| -------------------- | -------- | ------------------ | ------------------ |
| SD 1.5               | 4GB      | 8GB                | 原生 512x512         |
| SD 2.1               | 6GB      | 8GB                | 原生 768x768         |
| SDXL                 | 8GB      | 12GB               | 原生 1024x1024       |
| SDXL Turbo           | 8GB      | 12GB               | 1-4 步              |
| **SD3.5 Large (8B)** | **16GB** | **24GB**           | **1024x1024，进阶质量** |
| FLUX.1 schnell       | 12GB     | 16GB               | 4 步，快速             |
| FLUX.1 dev           | 16GB     | 24GB               | 20-50 步            |
| **TRELLIS**          | **16GB** | **24GB（RTX 4090）** | **从图像生成 3D**       |

### 视频生成模型

| A100                   | 最小显存     | 推荐                      | 输出                 |
| ---------------------- | -------- | ----------------------- | ------------------ |
| Stable Video Diffusion | 16GB     | 24GB                    | 4 秒，576x1024       |
| AnimateDiff            | 12GB     | 16GB                    | 2-4 秒              |
| **LTX-Video**          | **16GB** | **24GB（RTX 4090/3090）** | **5 秒，768x512，极快** |
| Wan2.1                 | 24GB     | 40GB                    | 5 秒，480p-720p      |
| 混元视频（Hunyuan Video）    | 40GB     | 80GB                    | 5 秒，720p           |
| OpenSora               | 24GB     | 40GB                    | 可变                 |

### 音频模型

| A100             | 最小显存 | 推荐   | 任务    |
| ---------------- | ---- | ---- | ----- |
| Whisper tiny     | 1GB  | 2GB  | 转录    |
| Whisper base     | 1GB  | 2GB  | 转录    |
| Whisper small    | 2GB  | 4GB  | 转录    |
| Whisper medium   | 4GB  | 6GB  | 转录    |
| Whisper large-v3 | 6GB  | 10GB | 转录    |
| Bark             | 8GB  | 12GB | 文本转语音 |
| Stable Audio     | 8GB  | 12GB | 音乐生成  |

### 视觉与视觉-语言模型

| A100                 | 最小显存     | 推荐                 | 任务               |
| -------------------- | -------- | ------------------ | ---------------- |
| Llama 3.2 Vision 11B | 12GB     | 16GB               | 图像理解             |
| Llama 3.2 Vision 90B | 48GB     | 80GB               | 图像理解             |
| LLaVA 7B             | 8GB      | 12GB               | 视觉问答             |
| LLaVA 13B            | 16GB     | 24GB               | 视觉问答             |
| **Qwen2.5-VL 7B**    | **16GB** | **24GB（RTX 4090）** | **图像/视频/文档 OCR** |
| **Qwen2.5-VL 72B**   | **48GB** | **2x A100 80GB**   | **最大视觉-语言能力**    |

### 微调与训练工具

| 工具 / 方法              | 最小显存     | 推荐 GPU            | 任务                     |
| -------------------- | -------- | ----------------- | ---------------------- |
| **Unsloth QLoRA 7B** | **12GB** | **RTX 3090 24GB** | **QLoRA 提速 2 倍，显存需求低** |
| Unsloth QLoRA 13B    | 16GB     | RTX 4090 24GB     | 快速微调                   |
| LoRA（标准）             | 12GB     | 速度                | 参数高效的微调                |
| 完整微调 7B              | 40GB     | 按日费率              | 最高质量训练                 |

***

## 详细兼容性表

### 按 GPU 的 LLM

| GPU              | 最大模型（Q4） | 最大模型（Q8） | 最大模型（FP16） |
| ---------------- | -------- | -------- | ---------- |
| RTX 3060 12GB    | 13B      | 7B       | 3B         |
| RTX 3070 8GB     | 7B       | 3B       | 1B         |
| RTX 3080 10GB    | 7B       | 7B       | 3B         |
| RTX 3090 24GB    | 30B      | 13B      | 7B         |
| RTX 4070 Ti 12GB | 13B      | 7B       | 3B         |
| RTX 4080 16GB    | 14B      | 7B       | 7B         |
| RTX 4090 24GB    | 30B      | 13B      | 7B         |
| RTX 5090 32GB    | 70B      | 14B      | 13B        |
| 按日费率             | 70B      | 30B      | 14B        |
| 4 小时会话           | 70B      | 70B      | 30B        |
| H100 80GB        | 70B      | 70B      | 30B        |

### 按 GPU 的图像生成

| GPU              | SD 1.5 | SDXL   | FLUX schnell | FLUX dev |
| ---------------- | ------ | ------ | ------------ | -------- |
| RTX 3060 12GB    | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 3070 8GB     | ✅ 512  | ⚠️ 512 | ❌            | ❌        |
| RTX 3080 10GB    | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 3090 24GB    | ✅ 768  | ✅ 1024 | ✅ 1024       | ⚠️ 768\* |
| RTX 4070 Ti 12GB | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 4080 16GB    | ✅ 768  | ✅ 1024 | ✅ 768        | ⚠️ 512\* |
| RTX 4090 24GB    | ✅ 1024 | ✅ 1024 | ✅ 1024       | ✅ 1024   |
| RTX 5090 32GB    | ✅ 1024 | ✅ 1024 | ✅ 1536       | ✅ 1536   |
| 按日费率             | ✅ 1024 | ✅ 1024 | ✅ 1024       | ✅ 1024   |
| 4 小时会话           | ✅ 2048 | ✅ 2048 | ✅ 1536       | ✅ 1536   |

\*使用 CPU 卸载或减小批量大小时

### 按 GPU 的视频生成

| GPU           | SVD     | AnimateDiff | Wan2.1  | 混元（Hunyuan） |
| ------------- | ------- | ----------- | ------- | ----------- |
| RTX 3060 12GB | ❌       | ⚠️ 短片       | ❌       | ❌           |
| RTX 3090 24GB | ✅ 2-4 秒 | ✅           | ⚠️ 480p | ❌           |
| RTX 4090 24GB | ✅ 4 秒   | ✅           | ✅ 480p  | ⚠️ 短片       |
| RTX 5090 32GB | ✅ 6 秒   | ✅           | ✅ 720p  | ✅ 5 秒       |
| 按日费率          | ✅ 4 秒   | ✅           | ✅ 720p  | ✅ 5 秒       |
| 4 小时会话        | ✅ 8 秒   | ✅           | ✅ 720p  | ✅ 10 秒      |

***

## 量化指南

### 什么是量化？

量化通过降低模型精度以适应更小的显存：

| 格式       | 位数 | 显存减少 | 质量损失 |
| -------- | -- | ---- | ---- |
| FP32     | 32 | 基线   | 无    |
| FP16     | 16 | 50%  | 最小   |
| BF16     | 16 | 50%  | 最小   |
| FP8      | 8  | 75%  | 小    |
| Q8       | 8  | 75%  | 小    |
| Q6\_K    | 6  | 81%  | 小    |
| Q5\_K\_M | 5  | 84%  | 中等   |
| Q4\_K\_M | 4  | 87%  | 中等   |
| Q3\_K\_M | 3  | 91%  | 可察觉  |
| Q2\_K    | 2  | 94%  | 显著   |

### 显存计算器

**公式：** `显存（GB）≈ 参数量（B）× 每参数字节数`

| 模型大小 | FP16   | Q8    | Q4     |
| ---- | ------ | ----- | ------ |
| 1B   | 2 GB   | 1 GB  | 0.5 GB |
| 3B   | 6 GB   | 3 GB  | 1.5 GB |
| 7B   | 14 GB  | 7 GB  | 3.5 GB |
| 8B   | 16 GB  | 8 GB  | 4 GB   |
| 13B  | 26 GB  | 13 GB | 6.5 GB |
| 14B  | 28 GB  | 14 GB | 7 GB   |
| 30B  | 60 GB  | 30 GB | 15 GB  |
| 32B  | 64 GB  | 32 GB | 16 GB  |
| 70B  | 140 GB | 70 GB | 35 GB  |
| 72B  | 144 GB | 72 GB | 36 GB  |

\*为 KV 缓存和开销额外添加约 20%

### 按使用场景推荐的量化

| 模型变体  | 推荐        | 原因         |
| ----- | --------- | ---------- |
| 聊天/通用 | Q4\_K\_M  | 速度与质量的良好平衡 |
| 编程    | Q5\_K\_M+ | 对代码有更好的准确性 |
| 创意写作  | Q4\_K\_M  | 速度更重要      |
| 分析    | Q6\_K+    | 需要更高精度     |
| 生产环境  | FP16/BF16 | 最高质量       |

***

## 上下文长度与显存

### 上下文如何影响显存

每个模型都有一个上下文窗口（最大 token 数）。上下文越长 = 显存需求越多：

| A100         | 默认上下文 | 最大上下文 | 每 1K token 的显存 |
| ------------ | ----- | ----- | -------------- |
| Llama 3 8B   | 8K    | 128K  | 约 0.3 GB       |
| Llama 3 70B  | 8K    | 128K  | 约 0.5 GB       |
| Qwen 2.5 7B  | 8K    | 128K  | 约 0.25 GB      |
| Mistral 7B   | 8K    | 32K   | 约 0.25 GB      |
| Mixtral 8x7B | 32K   | 32K   | 约 0.4 GB       |

### 按 GPU 的上下文（Llama 3 8B Q4）

| GPU           | 舒适的上下文 | 最大上下文 |
| ------------- | ------ | ----- |
| RTX 3060 12GB | 16K    | 32K   |
| RTX 3090 24GB | 64K    | 96K   |
| RTX 4090 24GB | 64K    | 96K   |
| RTX 5090 32GB | 96K    | 128K  |
| 按日费率          | 96K    | 128K  |
| 4 小时会话        | 128K   | 128K  |

***

## 多 GPU 配置

### 张量并行

将一个模型拆分到多个 GPU：

| 配置           | 总显存   | 最大模型（FP16）  |
| ------------ | ----- | ----------- |
| 2x RTX 3090  | 48GB  | 30B         |
| 2x RTX 4090  | 48GB  | 30B         |
| 2x RTX 5090  | 64GB  | 32B         |
| 4x RTX 5090  | 128GB | 70B         |
| 2x A100 40GB | 80GB  | 70B         |
| 4x A100 40GB | 160GB | 100B+       |
| 8x A100 80GB | 640GB | DeepSeek-V3 |

### vLLM 多 GPU

```bash
# 2 块 GPU
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 2

# 4 块 GPU
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 4
```

***

## 具体模型指南

### Llama 3.1 系列

| 变体             | 参数量  | 最小 GPU       | 推荐设置         |
| -------------- | ---- | ------------ | ------------ |
| Llama 3.2 1B   | 1B   | 任意 4GB       | 按小时费率        |
| Llama 3.2 3B   | 3B   | 任意 6GB       | 按小时费率        |
| Llama 3.1 8B   | 8B   | 按小时费率        | 速度           |
| Llama 3.1 70B  | 70B  | 按日费率         | 2x A100 40GB |
| Llama 3.1 405B | 405B | 8x A100 80GB | 8x H100      |

### Mistral/Mixtral 系列

| 变体            | 参数量   | 最小 GPU       | 推荐设置         |
| ------------- | ----- | ------------ | ------------ |
| Mistral 7B    | 7B    | 按小时费率        | 速度           |
| Mixtral 8x7B  | 46.7B | 速度           | 按日费率         |
| Mixtral 8x22B | 141B  | 2x A100 80GB | 4x A100 80GB |

### Qwen 2.5 系列

| 变体            | 参数量  | 最小 GPU  | 推荐设置    |
| ------------- | ---- | ------- | ------- |
| Qwen 2.5 0.5B | 0.5B | 任意 2GB  | 任意 4GB  |
| Qwen 2.5 1.5B | 1.5B | 任意 4GB  | 按小时费率   |
| Qwen 2.5 3B   | 3B   | 任意 6GB  | 按小时费率   |
| Qwen 2.5 7B   | 7B   | 按小时费率   | 速度      |
| Qwen 2.5 14B  | 14B  | 速度      | 512x512 |
| Qwen 2.5 32B  | 32B  | 512x512 | 按日费率    |
| Qwen 2.5 72B  | 72B  | 按日费率    | 4 小时会话  |

### DeepSeek 系列模型

| 变体                               | 参数量      | 最小 GPU            | 推荐设置             |
| -------------------------------- | -------- | ----------------- | ---------------- |
| DeepSeek-Coder 6.7B              | 6.7B     | 按小时费率             | 速度               |
| DeepSeek-Coder 33B               | 33B      | 512x512           | 按日费率             |
| DeepSeek-V2-Lite                 | 15.7B    | 速度                | 按日费率             |
| DeepSeek-V3                      | 671B     | 8x A100 80GB      | 8x H100          |
| **DeepSeek-R1**                  | **671B** | **8x A100 80GB**  | **8x H100（FP8）** |
| **DeepSeek-R1-Distill-Qwen-32B** | **32B**  | **RTX 5090 32GB** | **2x A100 40GB** |
| **DeepSeek-R1-Distill-Qwen-7B**  | **7B**   | **RTX 3090 24GB** | **512x512**      |

***

## # 使用固定种子以获得一致结果

### “CUDA 内存不足”

1. **减少量化：** Q8 → Q4
2. **降低上下文长度：** 减少 max\_tokens
3. **启用 CPU 卸载：** `--cpu-offload` 或 `enable_model_cpu_offload()`
4. **使用更小的批量：** batch\_size=1
5. **尝试不同的 GPU：** 需要更多显存

### “模型过大”

1. **使用量化版本：** GGUF Q4 模型
2. **使用多 GPU：** 张量并行
3. **卸载到 CPU：** 更慢但可行
4. **选择更小的模型：** 用 7B 代替 13B

### “生成速度慢”

1. **升级 GPU：** 更多显存 = 更少卸载
2. **使用更快的量化：** Q4 比 Q8 更快
3. **减少上下文：** 更短 = 更快
4. **启用 flash attention：** `--flash-attn`

## 使用以下方式支付

* [GPU 对比指南](https://docs.clore.ai/guides/guides_v2-zh/ru-men/gpu-comparison) - 详细的 GPU 规格
* [Docker 镜像目录](https://docs.clore.ai/guides/guides_v2-zh/ru-men/docker-images) - 可直接部署的镜像
* [快速入门指南](https://docs.clore.ai/guides/guides_v2-zh/quickstart) - 5 分钟快速上手


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-zh/ru-men/model-compatibility.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.