LocalAI

在 Clore.ai 上使用 LocalAI 自托管 OpenAI 兼容 API

使用 LocalAI 运行自托管的兼容 OpenAI 的 API。

circle-check

服务器要求

参数
最低
推荐

内存

8GB

16GB+

显存

6GB

8GB+

网络

200Mbps

500Mbps+

启动时间

5-10 分钟

-

circle-exclamation
circle-info

LocalAI 非常轻量。要运行 LLM(7B 及以上模型),请选择具有 16GB+ 内存和 8GB+ 显存的服务器。

什么是 LocalAI?

LocalAI 提供:

  • 可直接替换的 OpenAI API

  • 支持多种模型格式

  • 文本、图像、音频和嵌入生成

  • 不需要 GPU(但使用 GPU 更快)

支持的模型

类型
格式
示例

LLM

GGUF、GGML

Llama、Mistral、Phi

嵌入

GGUF

all-MiniLM、BGE

图像

Diffusers

SD 1.5、SDXL

音频

Whisper

语音转文本

TTS

Piper、Bark

文本转语音

快速部署

Docker 镜像:

端口:

无需命令 - 服务器会自动启动。

验证是否正常运行

部署后,在以下位置查找您的 http_pub URL: 我的订单 并测试:

circle-exclamation

预构建模型

LocalAI 搭载了若干开箱即可用的模型:

模型名称
类型
4s

gpt-4

对话

通用用途的大型语言模型

gpt-4o

对话

通用用途的大型语言模型

gpt-4o-mini

对话

更小、更快的 LLM

whisper-1

语音识别

语音转文本

tts-1

TTS

文本转语音

text-embedding-ada-002

嵌入

384 维向量

jina-reranker-v1-base-en

重排序

文档重排序

circle-info

这些模型在启动后即可使用,无需额外配置。

访问您的服务

当部署在 CLORE.AI 上时,通过以下方式访问 LocalAI: http_pub URL:

circle-info

全部 localhost:8080 下面的示例在通过 SSH 连接时可用。若需外部访问,请替换为你的 https://your-http-pub.clorecloud.net/ URL。

Docker 部署(替代)

下载模型

从模型库

LocalAI 内置了一个模型库:

从 Hugging Face

模型配置

为每个模型创建 YAML 配置:

models/llama-3.1-8b.yaml:

API 使用

聊天补全(兼容 OpenAI)

流式传输

嵌入

图像生成

cURL 示例

对话

嵌入

响应:

文本转语音(TTS)

可用的语音: alloy, echo, fable, onyx, nova, shimmer

语音转文本(STT)

响应:

重排序

按与查询相关性对文档重新排序:

响应:

完整 API 参考

标准端点(兼容 OpenAI)

端点
方法
4s

/v1/models

GET

列出可用模型

/v1/chat/completions

POST

聊天补全

/v1/completions

POST

文本补全

/v1/embeddings

POST

生成嵌入

/v1/audio/speech

POST

文本转语音

/v1/audio/transcriptions

POST

语音转文本

/v1/images/generations

POST

图像生成

附加端点

端点
方法
4s

/readyz

GET

就绪性检查

/healthz

GET

健康检查

/version

GET

获取 LocalAI 版本

/v1/rerank

POST

文档重排序

/models/available

GET

列出库中模型

/models/apply

POST

从库安装模型

/swagger/

GET

Swagger UI 文档

/metrics

GET

Prometheus 指标

获取版本

响应:

Swagger 文档

在浏览器中打开以获取交互式 API 文档:

GPU 加速

CUDA 后端

完全 GPU 卸载

多个模型

LocalAI 可以同时提供多个模型服务:

通过 API 调用中的模型名称访问每个模型。

性能调优

为速度优化

为内存优化

基准测试

A100
GPU
每秒标记数

Llama 3.1 8B Q4

速度

~100

Mistral 7B Q4

速度

~110

Llama 3.1 8B Q4

512x512

~140

Mixtral 8x7B Q4

2s

~60

基准测试更新于 2026 年 1 月。

# 使用固定种子以获得一致结果

http_pub URL 返回 HTTP 502

LocalAI 启动比其他服务要慢。请等待 5-10 分钟 然后重试:

模型未加载

  • 检查 YAML 中的文件路径

  • 验证 GGUF 格式兼容性

  • 检查可用显存

响应缓慢

  • 增加 gpu_layers

  • 启用 use_mmap

  • 减少 context_size

内存不足

  • 减少 gpu_layers

  • 使用更小的量化(使用 Q4 而不是 Q8)

  • 减少批量大小

图像生成问题

circle-exclamation

下载所有所需的检查点

典型 CLORE.AI 市场价格:

GPU
显存
价格/天
适合

按小时费率

12GB

$0.15–0.30

7B 模型

速度

24GB

$0.30–1.00

13B 模型

512x512

24GB

$0.50–2.00

快速推理

2s

40GB

$1.50–3.00

大型模型

价格以美元/天计。费率因提供商而异——请查看 CLORE.AI 市场arrow-up-right A100 40GB

使用以下方式支付

最后更新于

这有帮助吗?