LocalAI

Selbst gehostete OpenAI-kompatible API mit LocalAI auf Clore.ai

Führen Sie eine selbst gehostete OpenAI-kompatible API mit LocalAI aus.

circle-check

Serveranforderungen

Parameter
Minimum
Empfohlen

RAM

8GB

16GB+

VRAM

6GB

8GB+

Netzwerk

200Mbps

500Mbps+

Startzeit

5–10 Minuten

-

circle-exclamation
circle-info

LocalAI ist ressourcenschonend. Für den Betrieb von LLMs (Modelle ab 7B) wählen Sie Server mit 16GB+ RAM und 8GB+ VRAM.

Was ist LocalAI?

LocalAI bietet:

  • Drop-in-Ersatz für die OpenAI API

  • Unterstützung für mehrere Modellformate

  • Erzeugung von Text, Bildern, Audio und Embeddings

  • Keine GPU erforderlich (aber mit GPU schneller)

Unterstützte Modelle

Typ
Formate
Beispiele

LLM

GGUF, GGML

Llama, Mistral, Phi

Embeddings

GGUF

all-MiniLM, BGE

Bilder

Diffusers

SD 1.5, SDXL

Audio

Whisper

Speech-to-Text

TTS

Piper, Bark

Text-zu-Sprache

Schnelle Bereitstellung

Docker-Image:

Ports:

Kein Befehl erforderlich - Server startet automatisch.

Überprüfen, ob es funktioniert

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen und testen:

circle-exclamation

Vorinstallierte Modelle

LocalAI wird mit mehreren sofort verfügbaren Modellen ausgeliefert:

Modellname
Typ
Beschreibung

gpt-4

Chat

Allzweck-LLM

gpt-4o

Chat

Allzweck-LLM

gpt-4o-mini

Chat

Kleineres, schnelleres LLM

whisper-1

STT

Speech-to-Text

tts-1

TTS

Text-zu-Sprache

text-embedding-ada-002

Embeddings

384-dimensionale Vektoren

jina-reranker-v1-base-en

Reranking

Dokument-Reranking

circle-info

Diese Modelle funktionieren sofort nach dem Start ohne zusätzliche Konfiguration.

Zugriff auf Ihren Dienst

Bei Bereitstellung auf CLORE.AI greifen Sie auf LocalAI über die http_pub URL:

circle-info

Alle localhost:8080 Die untenstehenden Beispiele funktionieren, wenn über SSH verbunden. Für externen Zugriff ersetzen Sie durch Ihre https://your-http-pub.clorecloud.net/ URL.

Docker-Bereitstellung (Alternative)

Modelle herunterladen

Aus der Modellgalerie

LocalAI verfügt über eine integrierte Modellgalerie:

Von Hugging Face

Modellkonfiguration

Erstellen Sie für jedes Modell eine YAML-Konfig:

models/llama-3.1-8b.yaml:

API-Nutzung

Chat-Completions (OpenAI-kompatibel)

Streaming

Embeddings

Bildgenerierung

cURL-Beispiele

Chat

Embeddings

Antwort:

Text-zu-Sprache (TTS)

Verfügbare Stimmen: alloy, echo, fable, onyx, nova, shimmer

Speech-to-Text (STT)

Antwort:

Reranking

Reranke Dokumente nach Relevanz zu einer Anfrage:

Antwort:

Vollständige API-Referenz

Standardendpunkte (OpenAI-kompatibel)

Endpunkt
Methode
Beschreibung

/v1/models

GET

Verfügbare Modelle auflisten

/v1/chat/completions

POST

Chat-Vervollständigung

/v1/completions

POST

Textvervollständigung

/v1/embeddings

POST

Embeddings erzeugen

/v1/audio/speech

POST

Text-zu-Sprache

/v1/audio/transcriptions

POST

Speech-to-Text

/v1/images/generations

POST

Bildgenerierung

Zusätzliche Endpunkte

Endpunkt
Methode
Beschreibung

/readyz

GET

Readiness-Check

/healthz

GET

Health-Check

/version

GET

LocalAI-Version abrufen

/v1/rerank

POST

Dokument-Reranking

/models/available

GET

Galerie-Modelle auflisten

/models/apply

POST

Modell aus der Galerie installieren

/swagger/

GET

Swagger-UI-Dokumentation

/metrics

GET

Prometheus-Metriken

Version abrufen

Antwort:

Swagger-Dokumentation

Öffnen Sie im Browser für interaktive API-Dokumentation:

GPU-Beschleunigung

CUDA-Backend

Vollständiges GPU-Offload

Mehrere Modelle

LocalAI kann mehrere Modelle gleichzeitig bedienen:

Greifen Sie über den Modellnamen in API-Aufrufen auf jedes zu.

Performance-Tuning

Für Geschwindigkeit

Für Speicher

Benchmarks

Modell
GPU
Tokens/sec

Llama 3.1 8B Q4

RTX 3090

~100

Mistral 7B Q4

RTX 3090

~110

Llama 3.1 8B Q4

RTX 4090

~140

Mixtral 8x7B Q4

A100

~60

Benchmarks aktualisiert Januar 2026.

Fehlerbehebung

HTTP 502 auf http_pub-URL

LocalAI benötigt länger zum Starten als andere Dienste. Warten Sie 5–10 Minuten und versuchen Sie es erneut:

Modell wird nicht geladen

  • Dateipfad in YAML prüfen

  • GGUF-Formatkompatibilität überprüfen

  • Verfügbaren VRAM prüfen

Langsame Antworten

  • Erhöhen Sie gpu_layers

  • Aktivieren Sie use_mmap

  • Reduzieren context_size

Kein Speicher mehr

  • Reduzieren gpu_layers

  • Verwenden Sie kleinere Quantisierung (Q4 statt Q8)

  • Batch-Größe reduzieren

Probleme bei der Bildgenerierung

circle-exclamation

Kostenabschätzung

Typische CLORE.AI-Marktplatzpreise:

GPU
VRAM
Preis/Tag
Geeignet für

RTX 3060

12GB

$0.15–0.30

7B-Modelle

RTX 3090

24GB

$0.30–1.00

13B-Modelle

RTX 4090

24GB

$0.50–2.00

Schnelle Inferenz

A100

40GB

$1.50–3.00

Große Modelle

Preise in USD/Tag. Die Tarife variieren je nach Anbieter — prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?