概览

在 CLORE.AI GPU 上运行大型语言模型(LLM),用于推理和聊天应用。

热门工具

工具
模型变体
难度

最简单的 LLM 设置

初学者

类 ChatGPT 界面

初学者

高吞吐量生产服务

中等

高效的 GGUF 推理

简单

功能齐全的聊天界面

简单

最快的 EXL2 推理

中等

兼容 OpenAI 的 API

中等

模型指南

A100
参数量
最适合

671B 专家模型(MoE)

推理、代码、数学

0.5B-72B

多语言、代码

7B / 8x7B

通用型

6.7B-33B

代码生成

7B-34B

代码补全

2B-27B

高效推理

14B

小而能干

GPU 推荐

模型大小
最低 GPU
推荐

7B(Q4)

RTX 3060 12GB

速度

13B(Q4)

RTX 3090 24GB

512x512

34B(Q4)

2x RTX 3090

按日费率

70B(Q4)

4 小时会话

2x A100

量化指南

格式
显存使用
质量
性能

Q2_K

最低

最快

Q4_K_M

良好

快速

Q5_K_M

中等

很棒

中等

Q8_0

优秀

较慢

FP16

最高

最佳

最慢

另见

最后更新于

这有帮助吗?