概览

在 CLORE.AI GPU 上运行大型语言模型 (LLM) 以用于推理和聊天应用。

热门工具

工具

用例

难度

最简单的 LLM 设置

入门

类似 ChatGPT 的界面

入门

高吞吐量生产服务

中等

Llama.cpp 服务器

高效 GGUF 推理

简单

文本生成 WebUI

功能齐全的聊天界面

简单

最快的 EXL2 推理

中等

兼容 OpenAI 的 API

中等

快速结构化生成

中等

文本生成推理 (TGI)

HuggingFace 服务解决方案

中等

MMlab 服务工具包

中等

Aphrodite 引擎

带有额外功能的 vLLM 分支

中等

机器学习编译

困难

统一 API 代理

中等

稀疏模型推理

困难

基于 Rust 的推理引擎

中等

模型指南

最新与最佳模型

模型

参数

最适合用于

671B MoE

推理、代码、数学

671B MoE

高级推理

待定

下一代 DeepSeek

0.5B-72B

多语言、代码

待定

最新的 Qwen 版本

70B

Meta 最新的 70B

待定

Scout 与 Maverick 变体

专用模型

模型

参数

最适合用于

6.7B-33B

代码生成

CodeLlama

7B-34B

代码补全

4.7B

快速的中英文

GLM-5

待定

智谱 AI 最新

待定

Moonshot AI 模型

1T

大规模开源 LLM

24B

Liquid AI 模型

待定

快速推理模型

高效模型

模型

参数

最适合用于

Gemma 2

2B-27B

高效推理

Gemma 3

待定

Google 最新的紧凑型

Phi-4

14B

小巧但强大

Mistral/Mixtral

7B / 8x7B

通用用途

Mistral Large 3

675B MoE

企业级

Mistral Small 3.1

待定

高效的 Mistral 变体

GPU 推荐

模型大小

最低 GPU 要求

推荐

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

量化指南

格式

显存使用

质量

速度

Q2_K

最低

较差

最快

Q4_K_M

低

良好

快

Q5_K_M

中等

很好

中等

Q8_0

高

优秀

较慢

FP16

最高

最佳

最慢

另请参见

上一页故障排除下一页Ollama

最后更新于7天前

这有帮助吗？