LocalAI

Самохостинговый OpenAI-совместимый API с LocalAI на Clore.ai

Запустите совместимый с OpenAI локальный API с помощью LocalAI.

circle-check

Требования к серверу

Параметр
Минимум
Рекомендуется

ОЗУ

8GB

16 ГБ+

VRAM

6 ГБ

8 ГБ+

Сеть

200 Мбит/с

500 Мбит/с+

Время запуска

5–10 минут

-

circle-exclamation
circle-info

LocalAI имеет небольшой вес. Для запуска LLM (модели 7B+) выбирайте серверы с 16 ГБ+ оперативной памяти и 8 ГБ+ видеопамяти.

Что такое LocalAI?

LocalAI предоставляет:

  • Полную замену OpenAI API «под ключ»

  • Поддержку нескольких форматов моделей

  • Генерация текста, изображений, аудио и эмбеддингов

  • GPU не обязателен (но с GPU быстрее)

Поддерживаемые модели

Тип
Форматы
Примеры

LLM

GGUF, GGML

Llama, Mistral, Phi

Эмбеддинги

GGUF

all-MiniLM, BGE

Изображения

Diffusers

SD 1.5, SDXL

Аудио

Whisper

Речь в текст (Speech-to-text)

TTS

Piper, Bark

Текст в речь

Быстрое развертывание

Docker-образ:

Порты:

Команда не требуется - сервер запускается автоматически.

Проверьте, что всё работает

После развертывания найдите ваш http_pub URL в Моих заказах и протестируйте:

circle-exclamation

Предустановленные модели

LocalAI поставляется с несколькими моделями, доступными из коробки:

Название модели
Тип
Описание

gpt-4

Чат

LLM общего назначения

gpt-4o

Чат

LLM общего назначения

gpt-4o-mini

Чат

Меньшая, быстрая LLM

whisper-1

STT

Речь в текст (Speech-to-text)

tts-1

TTS

Текст в речь

text-embedding-ada-002

Эмбеддинги

Векторы размерности 384

jina-reranker-v1-base-en

Перераanking

Перерангировка документов

circle-info

Эти модели работают сразу после запуска без дополнительной настройки.

Доступ к вашему сервису

При развертывании на CLORE.AI доступ к LocalAI осуществляется через http_pub URL:

circle-info

Все localhost:8080 примеры ниже работают при подключении через SSH. Для внешнего доступа замените на ваш https://your-http-pub.clorecloud.net/ URL.

Развертывание в Docker (альтернатива)

Загрузка моделей

Из галереи моделей

LocalAI имеет встроенную галерею моделей:

С Hugging Face

Конфигурация модели

Создайте YAML-конфиг для каждой модели:

models/llama-3.1-8b.yaml:

Использование API

Chat Completions (совместимо с OpenAI)

Потоковая передача (Streaming)

Эмбеддинги

Генерация изображений

Примеры cURL

Чат

Эмбеддинги

Ответ:

Текст в речь (TTS)

Доступные голоса: alloy, echo, fable, onyx, nova, shimmer

Речь в текст (STT)

Ответ:

Перераanking

Переранжирование документов по релевантности запросу:

Ответ:

Полная справочная документация API

Стандартные эндпоинты (совместимые с OpenAI)

Эндпоинт
Метод
Описание

/v1/models

GET

Показать доступные модели

/v1/chat/completions

POST

Чат-завершение

/v1/completions

POST

Завершение текста

/v1/embeddings

POST

Генерация эмбеддингов

/v1/audio/speech

POST

Текст в речь

/v1/audio/transcriptions

POST

Речь в текст (Speech-to-text)

/v1/images/generations

POST

Генерация изображений

Дополнительные эндпоинты

Эндпоинт
Метод
Описание

/readyz

GET

Проверка готовности

/healthz

GET

Проверка состояния

/version

GET

Получить версию LocalAI

/v1/rerank

POST

Перерангировка документов

/models/available

GET

Показать модели галереи

/models/apply

POST

Установить модель из галереи

/swagger/

GET

Документация Swagger UI

/metrics

GET

Метрики Prometheus

Получить версию

Ответ:

Документация Swagger

Откройте в браузере для интерактивной документации API:

Ускорение с помощью GPU

CUDA-бэкенд

Полная выгрузка на GPU

Несколько моделей

LocalAI может обслуживать несколько моделей одновременно:

Доступ к каждой по имени модели в вызовах API.

Настройка производительности

Для скорости

Для экономии памяти

Бенчмарки

Модель
GPU
Токенов/с

Llama 3.1 8B Q4

RTX 3090

~100

Mistral 7B Q4

RTX 3090

~110

Llama 3.1 8B Q4

RTX 4090

~140

Mixtral 8x7B Q4

A100

~60

Бенчмарки обновлены в январе 2026.

Устранение неполадок

HTTP 502 на http_pub URL

LocalAI запускается дольше, чем другие сервисы. Подождите 5–10 минут и попробуйте снова:

Модель не загружается

  • Проверьте путь к файлу в YAML

  • Проверьте совместимость формата GGUF

  • Проверьте доступный объем VRAM

Медленные ответы

  • Увеличьте gpu_layers

  • Включите use_mmap

  • Уменьшите context_size

Недостаточно памяти

  • Уменьшите gpu_layers

  • Используйте меньшую квантизацию (Q4 вместо Q8)

  • Уменьшите размер батча

Проблемы с генерацией изображений

circle-exclamation

Оценка стоимости

Типичные расценки на маркетплейсе CLORE.AI:

GPU
VRAM
Цена/день
Подходит для

RTX 3060

12GB

$0.15–0.30

Модели 7B

RTX 3090

24 ГБ

$0.30–1.00

Модели 13B

RTX 4090

24 ГБ

$0.50–2.00

Быстрая инференция

A100

40GB

$1.50–3.00

Большие модели

Цены в USD/день. Тарифы зависят от провайдера — проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Дальнейшие шаги

Последнее обновление

Это было полезно?