概览

在 CLORE.AI GPU 上运行大型语言模型 (LLM) 以用于推理和聊天应用。

热门工具

工具
用例
难度

最简单的 LLM 设置

入门

类似 ChatGPT 的界面

入门

高吞吐量生产服务

中等

高效 GGUF 推理

简单

功能齐全的聊天界面

简单

最快的 EXL2 推理

中等

兼容 OpenAI 的 API

中等

快速结构化生成

中等

HuggingFace 服务解决方案

中等

MMlab 服务工具包

中等

带有额外功能的 vLLM 分支

中等

机器学习编译

困难

统一 API 代理

中等

稀疏模型推理

困难

基于 Rust 的推理引擎

中等

模型指南

最新与最佳模型

模型
参数
最适合用于

671B MoE

推理、代码、数学

671B MoE

高级推理

待定

下一代 DeepSeek

0.5B-72B

多语言、代码

待定

最新的 Qwen 版本

70B

Meta 最新的 70B

待定

Scout 与 Maverick 变体

专用模型

模型
参数
最适合用于

6.7B-33B

代码生成

7B-34B

代码补全

4.7B

快速的中英文

待定

智谱 AI 最新

待定

Moonshot AI 模型

1T

大规模开源 LLM

24B

Liquid AI 模型

待定

快速推理模型

高效模型

模型
参数
最适合用于

2B-27B

高效推理

待定

Google 最新的紧凑型

14B

小巧但强大

7B / 8x7B

通用用途

675B MoE

企业级

待定

高效的 Mistral 变体

GPU 推荐

模型大小
最低 GPU 要求
推荐

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

量化指南

格式
显存使用
质量
速度

Q2_K

最低

较差

最快

Q4_K_M

良好

Q5_K_M

中等

很好

中等

Q8_0

优秀

较慢

FP16

最高

最佳

最慢

另请参见

最后更新于

这有帮助吗?