Ollama
在 Clore.ai GPU 上使用 Ollama 本地运行 LLM
服务器要求
参数
最低
推荐
为什么选择 Ollama?
在 CLORE.AI 上快速部署
验证是否正常运行
访问您的服务
安装
使用 Docker(推荐)
手动安装
运行模型
拉取并运行
流行模型
A100
规模
模型变体
1024x1024
v0.6+ 新特性
结构化输出(JSON 模式)
兼容 OpenAI 的 Embeddings 端点(/api/embed)
/api/embed)并发模型加载
API 使用
聊天补全
兼容 OpenAI 的端点
流式传输
嵌入
文本生成(非聊天)
完整 API 参考
模型管理
端点
方法
4s
列出模型
显示模型详情
通过 API 拉取模型
删除模型
列出正在运行的模型
获取版本
推理端点
端点
方法
4s
自定义模型创建
GPU 配置
检查 GPU 使用情况
多 GPU
内存管理
自定义模型(Modelfile)
作为服务运行
Systemd
性能优化建议
基准测试
生成速度(tokens/sec)
A100
按小时费率
速度
512x512
按日费率
首个标记时间(ms)
A100
速度
512x512
2s
上下文长度与显存(Q4)
A100
2K 上下文
4K 上下文
8K 上下文
16K 上下文
GPU 要求
A100
Q4 显存
Q8 显存
下载所有所需的检查点
GPU
显存
价格/天
适合
# 使用固定种子以获得一致结果
模型无法加载
生成速度慢
连接被拒绝
http_pub URL 返回 HTTP 502
使用以下方式支付
最后更新于
这有帮助吗?