在 CLORE.AI GPU 上运行大型语言模型(LLM),用于推理和聊天应用。
Ollama
最简单的 LLM 设置
初学者
打开 WebUI
类 ChatGPT 界面
vLLM
高吞吐量生产服务
中等
Llama.cpp 服务器
高效的 GGUF 推理
简单
文本生成 WebUI
功能齐全的聊天界面
ExLlamaV2
最快的 EXL2 推理
LocalAI
兼容 OpenAI 的 API
DeepSeek-V3
671B 专家模型(MoE)
推理、代码、数学
Qwen2.5
0.5B-72B
多语言、代码
Mistral/Mixtral
7B / 8x7B
通用型
DeepSeek Coder
6.7B-33B
代码生成
CodeLlama
7B-34B
代码补全
Gemma 2
2B-27B
高效推理
Phi-4
14B
小而能干
7B(Q4)
RTX 3060 12GB
速度
13B(Q4)
RTX 3090 24GB
512x512
34B(Q4)
2x RTX 3090
按日费率
70B(Q4)
4 小时会话
2x A100
Q2_K
最低
差
最快
Q4_K_M
低
良好
快速
Q5_K_M
很棒
Q8_0
高
优秀
较慢
FP16
最高
最佳
最慢
训练与微调
视觉-语言模型
最后更新于1个月前
这有帮助吗?