TGI(文本生成推理)
在 Clore.ai GPU 上运行 HuggingFace 文本生成推理(TGI)以进行生产级大型语言模型服务
服务器要求
参数
最低要求
推荐配置
在 CLORE.AI 上快速部署
变量
示例
描述
逐步设置
1. 在 CLORE.AI 上租用 GPU 服务器
2. 通过 SSH 连接
3. 拉取 TGI Docker 镜像
4. 使用模型启动 TGI
5. 验证服务器是否在运行
6. 通过 CLORE.AI HTTP 代理访问
使用示例
示例 1:基本文本生成
示例 2:聊天补全(兼容 OpenAI)
示例 3:流式响应
示例 4:Python 客户端
示例 5:批量请求
invokeai.yaml 配置文件
关键 CLI 参数
参数
默认
描述
使用本地模型
AWQ 量化(比 NF4 更快)
1. 使用 SDXL-Turbo 或 SDXL-Lightning 以实现快速生成
1. 启用 Flash Attention 2
2. 调整最大批次大小
3. 在 Ampere 及更新 GPU 上使用 bfloat16
4. 将模型预下载到持久存储
5. GPU 内存管理
6. 预测式解码(Speculative Decoding)
故障排除
解决方案:
问题:模型下载很慢
问题:通过 http_pub 无法访问服务器
问题:需要 "trust_remote_code"
问题:首次响应慢
问题:容器立即退出
文档
Clore.ai 的 GPU 建议
在 Clore.ai 上的预估费用
开发/测试
RTX 3090(24GB)
最后更新于
这有帮助吗?