# 概览

在 CLORE.AI GPU 上运行大型语言模型 (LLM) 以用于推理和聊天应用。

## 热门工具

| 工具                                                                                            | 用例                 | 难度 |
| --------------------------------------------------------------------------------------------- | ------------------ | -- |
| [Ollama](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/ollama)                     | 最简单的 LLM 设置        | 入门 |
| [打开 WebUI](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/open-webui)               | 类似 ChatGPT 的界面     | 入门 |
| [vLLM](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/vllm)                         | 高吞吐量生产服务           | 中等 |
| [Llama.cpp 服务器](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/llamacpp-server)     | 高效 GGUF 推理         | 简单 |
| [文本生成 WebUI](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/text-generation-webui)  | 功能齐全的聊天界面          | 简单 |
| [ExLlamaV2](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/exllamav2-fast)          | 最快的 EXL2 推理        | 中等 |
| [LocalAI](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/localai-openai-compatible) | 兼容 OpenAI 的 API    | 中等 |
| [SGLang](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/sglang)                     | 快速结构化生成            | 中等 |
| [文本生成推理 (TGI)](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/tgi)                  | HuggingFace 服务解决方案 | 中等 |
| [LMDeploy](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/lmdeploy)                 | MMlab 服务工具包        | 中等 |
| [Aphrodite 引擎](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/aphrodite-engine)     | 带有额外功能的 vLLM 分支    | 中等 |
| [MLC-LLM](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/mlc-llm)                   | 机器学习编译             | 困难 |
| [LiteLLM](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/litellm)                   | 统一 API 代理          | 中等 |
| [PowerInfer](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/powerinfer)             | 稀疏模型推理             | 困难 |
| [Mistral.rs](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/mistral-rs)             | 基于 Rust 的推理引擎      | 中等 |

## 模型指南

### 最新与最佳模型

| 模型                                                                                  | 参数       | 最适合用于               |
| ----------------------------------------------------------------------------------- | -------- | ------------------- |
| [DeepSeek-V3](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/deepseek-v3) | 671B MoE | 推理、代码、数学            |
| [DeepSeek-R1](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/deepseek-r1) | 671B MoE | 高级推理                |
| [DeepSeek V4](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/deepseek-v4) | 待定       | 下一代 DeepSeek        |
| [Qwen2.5](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/qwen25)          | 0.5B-72B | 多语言、代码              |
| [Qwen3.5](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/qwen35)          | 待定       | 最新的 Qwen 版本         |
| [Llama 3.3](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/llama33)       | 70B      | Meta 最新的 70B        |
| [Llama 4](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/llama4)          | 待定       | Scout 与 Maverick 变体 |

### 专用模型

| 模型                                                                                        | 参数       | 最适合用于          |
| ----------------------------------------------------------------------------------------- | -------- | -------------- |
| [DeepSeek Coder](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/deepseek-coder) | 6.7B-33B | 代码生成           |
| [CodeLlama](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/codellama)           | 7B-34B   | 代码补全           |
| [GLM-4.7-Flash](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/glm-47-flash)    | 4.7B     | 快速的中英文         |
| [GLM-5](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/glm5)                    | 待定       | 智谱 AI 最新       |
| [Kimi K2.5](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/kimi-k2)             | 待定       | Moonshot AI 模型 |
| [Ling-2.5-1T](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/ling25)            | 1T       | 大规模开源 LLM      |
| [LFM2-24B](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/lfm2-24b)             | 24B      | Liquid AI 模型   |
| [MiMo-V2-Flash](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/mimo-v2-flash)   | 待定       | 快速推理模型         |

### 高效模型

| 模型                                                                                          | 参数        | 最适合用于          |
| ------------------------------------------------------------------------------------------- | --------- | -------------- |
| [Gemma 2](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/gemma2)                  | 2B-27B    | 高效推理           |
| [Gemma 3](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/gemma3)                  | 待定        | Google 最新的紧凑型  |
| [Phi-4](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/phi4)                      | 14B       | 小巧但强大          |
| [Mistral/Mixtral](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/mistral-mixtral) | 7B / 8x7B | 通用用途           |
| [Mistral Large 3](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/mistral-large3)  | 675B MoE  | 企业级            |
| [Mistral Small 3.1](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/mistral-small) | 待定        | 高效的 Mistral 变体 |

## GPU 推荐

| 模型大小     | 最低 GPU 要求     | 推荐        |
| -------- | ------------- | --------- |
| 7B (Q4)  | RTX 3060 12GB | RTX 3090  |
| 13B (Q4) | RTX 3090 24GB | RTX 4090  |
| 34B (Q4) | 2x RTX 3090   | A100 40GB |
| 70B (Q4) | A100 80GB     | 2x A100   |

## 量化指南

| 格式       | 显存使用 | 质量 | 速度 |
| -------- | ---- | -- | -- |
| Q2\_K    | 最低   | 较差 | 最快 |
| Q4\_K\_M | 低    | 良好 | 快  |
| Q5\_K\_M | 中等   | 很好 | 中等 |
| Q8\_0    | 高    | 优秀 | 较慢 |
| FP16     | 最高   | 最佳 | 最慢 |

## 另请参见

* [训练与微调](https://docs.clore.ai/guides/guides_v2-zh/xun-lian/training)
* [视觉-语言模型](https://docs.clore.ai/guides/guides_v2-zh/shi-jue-mo-xing/vision-models)
