MLC-LLM
什么是 MLC-LLM?
关键能力
为什么在 Clore.ai 上使用 MLC-LLM?
在 Clore.ai 上快速开始
步骤 1:查找 GPU 服务器
步骤 2:部署 MLC-LLM
容器端口
用途
步骤 3:通过 SSH 连接
安装与设置
选项 A:使用预编译模型(最快)
选项 B:编译您自己的模型
运行 API 服务器
启动兼容 OpenAI 的服务器
服务器启动输出
可用的 API 端点
端点
方法
描述
API 使用示例
聊天补全(Python)
流式响应
cURL 示例
可用的预编译模型
Llama 3 系列
Mistral / Mixtral
Gemma
Phi
量化选项
量化
位数
速度
显存(7B)
显存(13B)
多 GPU 部署
网页聊天界面
性能调优
优化批量大小
监控 GPU 使用率
基准吞吐量测试
Docker Compose 设置
故障排除
模型下载失败
显存不足(OOM)
CUDA 版本不匹配
服务器无法访问
Clore.ai 的 GPU 建议
GPU
显存(VRAM)
Clore.ai 价格
适合用于
吞吐量(Llama 3 8B Q4)
资源
最后更新于
这有帮助吗?