# 概览

在 CLORE.AI GPU 上运行大型语言模型 (LLM) 以用于推理和聊天应用。

## 热门工具

| 工具                                                                          | 用例                 | 难度 |
| --------------------------------------------------------------------------- | ------------------ | -- |
| [Ollama](/guides/guides_v2-zh/yu-yan-mo-xing/ollama.md)                     | 最简单的 LLM 设置        | 入门 |
| [打开 WebUI](/guides/guides_v2-zh/yu-yan-mo-xing/open-webui.md)               | 类似 ChatGPT 的界面     | 入门 |
| [vLLM](/guides/guides_v2-zh/yu-yan-mo-xing/vllm.md)                         | 高吞吐量生产服务           | 中等 |
| [Llama.cpp 服务器](/guides/guides_v2-zh/yu-yan-mo-xing/llamacpp-server.md)     | 高效 GGUF 推理         | 简单 |
| [文本生成 WebUI](/guides/guides_v2-zh/yu-yan-mo-xing/text-generation-webui.md)  | 功能齐全的聊天界面          | 简单 |
| [ExLlamaV2](/guides/guides_v2-zh/yu-yan-mo-xing/exllamav2-fast.md)          | 最快的 EXL2 推理        | 中等 |
| [LocalAI](/guides/guides_v2-zh/yu-yan-mo-xing/localai-openai-compatible.md) | 兼容 OpenAI 的 API    | 中等 |
| [SGLang](/guides/guides_v2-zh/yu-yan-mo-xing/sglang.md)                     | 快速结构化生成            | 中等 |
| [文本生成推理 (TGI)](/guides/guides_v2-zh/yu-yan-mo-xing/tgi.md)                  | HuggingFace 服务解决方案 | 中等 |
| [LMDeploy](/guides/guides_v2-zh/yu-yan-mo-xing/lmdeploy.md)                 | MMlab 服务工具包        | 中等 |
| [Aphrodite 引擎](/guides/guides_v2-zh/yu-yan-mo-xing/aphrodite-engine.md)     | 带有额外功能的 vLLM 分支    | 中等 |
| [MLC-LLM](/guides/guides_v2-zh/yu-yan-mo-xing/mlc-llm.md)                   | 机器学习编译             | 困难 |
| [LiteLLM](/guides/guides_v2-zh/yu-yan-mo-xing/litellm.md)                   | 统一 API 代理          | 中等 |
| [PowerInfer](/guides/guides_v2-zh/yu-yan-mo-xing/powerinfer.md)             | 稀疏模型推理             | 困难 |
| [Mistral.rs](/guides/guides_v2-zh/yu-yan-mo-xing/mistral-rs.md)             | 基于 Rust 的推理引擎      | 中等 |

## 模型指南

### 最新与最佳模型

| 模型                                                                | 参数       | 最适合用于               |
| ----------------------------------------------------------------- | -------- | ------------------- |
| [DeepSeek-V3](/guides/guides_v2-zh/yu-yan-mo-xing/deepseek-v3.md) | 671B MoE | 推理、代码、数学            |
| [DeepSeek-R1](/guides/guides_v2-zh/yu-yan-mo-xing/deepseek-r1.md) | 671B MoE | 高级推理                |
| [DeepSeek V4](/guides/guides_v2-zh/yu-yan-mo-xing/deepseek-v4.md) | 待定       | 下一代 DeepSeek        |
| [Qwen2.5](/guides/guides_v2-zh/yu-yan-mo-xing/qwen25.md)          | 0.5B-72B | 多语言、代码              |
| [Qwen3.5](/guides/guides_v2-zh/yu-yan-mo-xing/qwen35.md)          | 待定       | 最新的 Qwen 版本         |
| [Llama 3.3](/guides/guides_v2-zh/yu-yan-mo-xing/llama33.md)       | 70B      | Meta 最新的 70B        |
| [Llama 4](/guides/guides_v2-zh/yu-yan-mo-xing/llama4.md)          | 待定       | Scout 与 Maverick 变体 |

### 专用模型

| 模型                                                                      | 参数       | 最适合用于          |
| ----------------------------------------------------------------------- | -------- | -------------- |
| [DeepSeek Coder](/guides/guides_v2-zh/yu-yan-mo-xing/deepseek-coder.md) | 6.7B-33B | 代码生成           |
| [CodeLlama](/guides/guides_v2-zh/yu-yan-mo-xing/codellama.md)           | 7B-34B   | 代码补全           |
| [GLM-4.7-Flash](/guides/guides_v2-zh/yu-yan-mo-xing/glm-47-flash.md)    | 4.7B     | 快速的中英文         |
| [GLM-5](/guides/guides_v2-zh/yu-yan-mo-xing/glm5.md)                    | 待定       | 智谱 AI 最新       |
| [Kimi K2.5](/guides/guides_v2-zh/yu-yan-mo-xing/kimi-k2.md)             | 待定       | Moonshot AI 模型 |
| [Ling-2.5-1T](/guides/guides_v2-zh/yu-yan-mo-xing/ling25.md)            | 1T       | 大规模开源 LLM      |
| [LFM2-24B](/guides/guides_v2-zh/yu-yan-mo-xing/lfm2-24b.md)             | 24B      | Liquid AI 模型   |
| [MiMo-V2-Flash](/guides/guides_v2-zh/yu-yan-mo-xing/mimo-v2-flash.md)   | 待定       | 快速推理模型         |

### 高效模型

| 模型                                                                        | 参数        | 最适合用于          |
| ------------------------------------------------------------------------- | --------- | -------------- |
| [Gemma 2](/guides/guides_v2-zh/yu-yan-mo-xing/gemma2.md)                  | 2B-27B    | 高效推理           |
| [Gemma 3](/guides/guides_v2-zh/yu-yan-mo-xing/gemma3.md)                  | 待定        | Google 最新的紧凑型  |
| [Phi-4](/guides/guides_v2-zh/yu-yan-mo-xing/phi4.md)                      | 14B       | 小巧但强大          |
| [Mistral/Mixtral](/guides/guides_v2-zh/yu-yan-mo-xing/mistral-mixtral.md) | 7B / 8x7B | 通用用途           |
| [Mistral Large 3](/guides/guides_v2-zh/yu-yan-mo-xing/mistral-large3.md)  | 675B MoE  | 企业级            |
| [Mistral Small 3.1](/guides/guides_v2-zh/yu-yan-mo-xing/mistral-small.md) | 待定        | 高效的 Mistral 变体 |

## GPU 推荐

| 模型大小     | 最低 GPU 要求     | 推荐        |
| -------- | ------------- | --------- |
| 7B (Q4)  | RTX 3060 12GB | RTX 3090  |
| 13B (Q4) | RTX 3090 24GB | RTX 4090  |
| 34B (Q4) | 2x RTX 3090   | A100 40GB |
| 70B (Q4) | A100 80GB     | 2x A100   |

## 量化指南

| 格式       | 显存使用 | 质量 | 速度 |
| -------- | ---- | -- | -- |
| Q2\_K    | 最低   | 较差 | 最快 |
| Q4\_K\_M | 低    | 良好 | 快  |
| Q5\_K\_M | 中等   | 很好 | 中等 |
| Q8\_0    | 高    | 优秀 | 较慢 |
| FP16     | 最高   | 最佳 | 最慢 |

## 另请参见

* [训练与微调](/guides/guides_v2-zh/xun-lian/training.md)
* [视觉-语言模型](/guides/guides_v2-zh/shi-jue-mo-xing/vision-models.md)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/language-models.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
