LocalAI

Selbstgehostete OpenAI‑kompatible API mit LocalAI auf Clore.ai

Führen Sie eine selbst gehostete OpenAI-kompatible API mit LocalAI aus.

Alle Beispiele können auf GPU-Servern ausgeführt werden, die über CLORE.AI Marketplace.

Serveranforderungen

Parameter

Minimum

Was ist LocalAI?

LocalAI bietet:

Drop-in-Ersatz für die OpenAI API
Unterstützung für mehrere Modellformate
Erzeugung von Text, Bildern, Audio und Embeddings
Keine GPU erforderlich (aber mit GPU schneller)

Unterstützte Modelle

Typ

Formate

Beispiele

LLM

GGUF, GGML

Llama, Mistral, Phi

Embeddings

GGUF

all-MiniLM, BGE

Bilder

Diffusers

SD 1.5, SDXL

Audio

Whisper

Speech-to-Text

TTS

Piper, Bark

Text-zu-Sprache

Schnelle Bereitstellung

Docker-Image:

localai/localai:master-aio-gpu-nvidia-cuda-12

Ports:

22/tcp
8080/http

Kein Befehl erforderlich - Server startet automatisch.

Überprüfen, ob es funktioniert

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen und testen:

# Prüfen, ob der Dienst bereit ist
curl https://your-http-pub.clorecloud.net/readyz

# Verfügbare Modelle auflisten
curl https://your-http-pub.clorecloud.net/v1/models

# Version abrufen
curl https://your-http-pub.clorecloud.net/version

Wenn Sie HTTP 502 erhalten, warten Sie 5–10 Minuten – LocalAI benötigt länger zur Initialisierung als andere Dienste.

Vorinstallierte Modelle

LocalAI wird mit mehreren sofort verfügbaren Modellen ausgeliefert:

Modellname

Typ

Beschreibung

gpt-4

Chat

Allzweck-LLM

gpt-4o

Chat

Allzweck-LLM

gpt-4o-mini

Chat

Kleineres, schnelleres LLM

whisper-1

STT

Speech-to-Text

tts-1

TTS

Text-zu-Sprache

text-embedding-ada-002

Embeddings

384-dimensionale Vektoren

jina-reranker-v1-base-en

Reranking

Dokument-Reranking

Diese Modelle funktionieren sofort nach dem Start ohne zusätzliche Konfiguration.

Zugriff auf Ihren Dienst

Bei Bereitstellung auf CLORE.AI greifen Sie auf LocalAI über die http_pub URL:

# Chat-Vervollständigung
curl https://your-http-pub.clorecloud.net/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "gpt-4",
        "messages": [{"role": "user", "content": "Hello!"}]
    }'

Alle localhost:8080 Die untenstehenden Beispiele funktionieren, wenn über SSH verbunden. Für externen Zugriff ersetzen Sie durch Ihre https://your-http-pub.clorecloud.net/ URL.

Docker-Bereitstellung (Alternative)

docker run -d \
    --gpus all \
    -p 8080:8080 \
    -v /workspace/models:/models \
    -e THREADS=4 \
    -e CONTEXT_SIZE=4096 \
    localai/localai:master-aio-gpu-nvidia-cuda-12

Modelle herunterladen

Aus der Modellgalerie

LocalAI verfügt über eine integrierte Modellgalerie:

# Verfügbare Modelle auflisten
curl http://localhost:8080/models/available

# Aus der Galerie installieren
curl http://localhost:8080/models/apply -d '{"id": "mistral-7b-instruct"}'

Von Hugging Face

mkdir -p /workspace/models

# Llama 3.1 8B GGUF
wget https://huggingface.co/bartowski/Meta-Llama-3.1-8B-Instruct-GGUF/resolve/main/Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf \
    -O /workspace/models/llama-3.1-8b.gguf

# Mistral 7B GGUF
wget https://huggingface.co/bartowski/Mistral-7B-Instruct-v0.3-GGUF/resolve/main/Mistral-7B-Instruct-v0.3-Q4_K_M.gguf \
    -O /workspace/models/mistral-7b.gguf

Modellkonfiguration

Erstellen Sie für jedes Modell eine YAML-Konfig:

models/llama-3.1-8b.yaml:

name: llama-3.1-8b
backend: llama-cpp
parameters:
  model: llama-3.1-8b.gguf
  context_size: 4096
  threads: 8
  gpu_layers: 35
template:
  chat: |
    {{.Input}}
    ### Antwort:
  completion: |
    {{.Input}}

API-Nutzung

Chat-Completions (OpenAI-kompatibel)

import openai

# Für externen Zugriff verwenden Sie Ihre http_pub-URL:
client = openai.OpenAI(
    base_url="https://your-http-pub.clorecloud.net/v1",
    api_key="nicht benötigt"
)

# Oder über SSH-Tunnel:
# client = openai.OpenAI(base_url="http://localhost:8080/v1", api_key="not-needed")

response = client.chat.completions.create(
    model="mistral-7b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Erkläre Quantencomputing in einfachen Worten."}
    ],
    temperature=0.7,
    max_tokens=500
)

print(response.choices[0].message.content)

Streaming

stream = client.chat.completions.create(
    model="mistral-7b",
    messages=[{"role": "user", "content": "Schreibe ein Gedicht über KI"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

Embeddings

response = client.embeddings.create(
    model="all-minilm",
    input="The quick brown fox jumps over the lazy dog"
)

embedding = response.data[0].embedding
print(f"Embedding dimension: {len(embedding)}")

Bildgenerierung

response = client.images.generate(
    model="stablediffusion",
    prompt="a beautiful sunset over mountains",
    size="512x512",
    n=1
)

image_url = response.data[0].url

cURL-Beispiele

Chat

curl https://your-http-pub.clorecloud.net/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "mistral-7b",
        "messages": [{"role": "user", "content": "Hello!"}]
    }'

Embeddings

curl https://your-http-pub.clorecloud.net/v1/embeddings \
    -H "Content-Type: application/json" \
    -d '{
        "model": "text-embedding-ada-002",
        "input": "Ihr Text hier"
    }'

Antwort:

{
  "data": [{"embedding": [0.1, -0.2, ...], "index": 0}],
  "model": "text-embedding-ada-002",
  "usage": {"prompt_tokens": 4, "total_tokens": 4}
}

Text-zu-Sprache (TTS)

curl https://your-http-pub.clorecloud.net/v1/audio/speech \
    -H "Content-Type: application/json" \
    -d '{
        "model": "tts-1",
        "input": "Hallo, willkommen bei LocalAI!",
        "voice": "alloy"
    }' \
    --output speech.wav

Verfügbare Stimmen: alloy, echo, fable, onyx, nova, shimmer

Speech-to-Text (STT)

curl https://your-http-pub.clorecloud.net/v1/audio/transcriptions \
    -F "[email protected]" \
    -F "model=whisper-1"

Antwort:

{"text": "Hier transkribierter Text..."}

Reranking

Reranke Dokumente nach Relevanz zu einer Anfrage:

curl https://your-http-pub.clorecloud.net/v1/rerank \
    -H "Content-Type: application/json" \
    -d '{
        "model": "jina-reranker-v1-base-en",
        "query": "Was ist maschinelles Lernen?",
        "documents": [
            "Maschinelles Lernen ist ein Teilgebiet der KI",
            "Das Wetter ist heute schön",
            "Deep Learning verwendet neuronale Netze"
        ],
        "top_n": 2
    }'

Antwort:

{
  "results": [
    {"index": 0, "relevance_score": 0.95},
    {"index": 2, "relevance_score": 0.82}
  ]
}

Vollständige API-Referenz

Standardendpunkte (OpenAI-kompatibel)

Endpunkt

Methode

Beschreibung

/v1/models

GET

Verfügbare Modelle auflisten

/v1/chat/completions

POST

Chat-Vervollständigung

/v1/completions

POST

Textvervollständigung

/v1/embeddings

POST

Embeddings erzeugen

/v1/audio/speech

POST

Text-zu-Sprache

/v1/audio/transcriptions

POST

Speech-to-Text

/v1/images/generations

POST

Bildgenerierung

Zusätzliche Endpunkte

Endpunkt

Methode

Beschreibung

/readyz

GET

Readiness-Check

/healthz

GET

Health-Check

/version

GET

LocalAI-Version abrufen

/v1/rerank

POST

Dokument-Reranking

/models/available

GET

Galerie-Modelle auflisten

/models/apply

POST

Modell aus der Galerie installieren

/swagger/

GET

Swagger-UI-Dokumentation

/metrics

GET

Prometheus-Metriken

Version abrufen

curl https://your-http-pub.clorecloud.net/version

Antwort:

{"version": "v2.26.0"}

Swagger-Dokumentation

Öffnen Sie im Browser für interaktive API-Dokumentation:

https://your-http-pub.clorecloud.net/swagger/

GPU-Beschleunigung

CUDA-Backend

# In der Modellkonfiguration
parameters:
  gpu_layers: 35  # Anzahl der Layer auf der GPU
  f16: true       # FP16 verwenden

Vollständiges GPU-Offload

parameters:
  gpu_layers: 99  # Alle Layer auf der GPU
  main_gpu: 0     # Primäre GPU-ID

Mehrere Modelle

LocalAI kann mehrere Modelle gleichzeitig bedienen:

models/
├── llama-3.1-8b.yaml
├── llama-3.1-8b.gguf
├── mistral-7b.yaml
├── mistral-7b.gguf
├── whisper.yaml
└── whisper-base.bin

Greifen Sie über den Modellnamen in API-Aufrufen auf jedes zu.

Performance-Tuning

Für Geschwindigkeit

parameters:
  threads: 8
  gpu_layers: 99
  batch_size: 512
  use_mmap: true
  use_mlock: true

Für Speicher

parameters:
  gpu_layers: 20  # Partielles Offload
  context_size: 2048  # Kleinere Kontextgröße
  batch_size: 256

Benchmarks

Modell

GPU

Tokens/sec

Llama 3.1 8B Q4

RTX 3090

~100

Mistral 7B Q4

RTX 3090

~110

Llama 3.1 8B Q4

RTX 4090

~140

Mixtral 8x7B Q4

A100

~60

Benchmarks aktualisiert Januar 2026.

Fehlerbehebung

HTTP 502 auf http_pub-URL

LocalAI benötigt länger zum Starten als andere Dienste. Warten Sie 5–10 Minuten und versuchen Sie es erneut:

# Bereitschaft prüfen
curl https://your-http-pub.clorecloud.net/readyz

# Gesundheit prüfen
curl https://your-http-pub.clorecloud.net/healthz

Modell wird nicht geladen

Dateipfad in YAML prüfen
GGUF-Formatkompatibilität überprüfen
Verfügbaren VRAM prüfen

Langsame Antworten

Erhöhen Sie gpu_layers
Aktivieren Sie use_mmap
Reduzieren context_size

Kein Speicher mehr

Reduzieren gpu_layers
Verwenden Sie kleinere Quantisierung (Q4 statt Q8)
Batch-Größe reduzieren

Probleme bei der Bildgenerierung

Stable Diffusion kann auf einigen GPU-Konfigurationen CUDA-Kompatibilitätsprobleme haben. Wenn Sie CUDA-Fehler bei der Bildgenerierung erhalten, ziehen Sie in Betracht, stattdessen ein dediziertes Stable-Diffusion-Bild zu verwenden.

Kostenabschätzung

Typische CLORE.AI-Marktplatzpreise:

GPU

VRAM

Preis/Tag

Geeignet für

RTX 3060

12GB

$0.15–0.30

7B-Modelle

RTX 3090

24GB

$0.30–1.00

13B-Modelle

RTX 4090

24GB

$0.50–2.00

Schnelle Inferenz

A100

40GB

$1.50–3.00

Große Modelle

Preise in USD/Tag. Die Tarife variieren je nach Anbieter — prüfen Sie CLORE.AI Marketplace auf aktuelle Preise.

Nächste Schritte

vLLM-Inferenz - Höherer Durchsatz
Ollama-Anleitung - Einfachere Einrichtung
RAG mit LangChain - Anwendungen erstellen

VorherigeExLlamaV2 NächsteLlama 3.3 70B

Zuletzt aktualisiert vor 22 Tagen

War das hilfreich?

hashtagServeranforderungen

hashtagWas ist LocalAI?

hashtagUnterstützte Modelle

hashtagSchnelle Bereitstellung

hashtagÜberprüfen, ob es funktioniert

hashtagVorinstallierte Modelle

hashtagZugriff auf Ihren Dienst

hashtagDocker-Bereitstellung (Alternative)

hashtagModelle herunterladen

hashtagAus der Modellgalerie

hashtagVon Hugging Face

hashtagModellkonfiguration

hashtagAPI-Nutzung

hashtagChat-Completions (OpenAI-kompatibel)

hashtagStreaming

hashtagEmbeddings

hashtagBildgenerierung

hashtagcURL-Beispiele

hashtagChat

hashtagEmbeddings

hashtagText-zu-Sprache (TTS)

hashtagSpeech-to-Text (STT)

hashtagReranking

hashtagVollständige API-Referenz

hashtagStandardendpunkte (OpenAI-kompatibel)

hashtagZusätzliche Endpunkte

hashtagVersion abrufen

hashtagSwagger-Dokumentation

hashtagGPU-Beschleunigung

hashtagCUDA-Backend

hashtagVollständiges GPU-Offload

hashtagMehrere Modelle

hashtagPerformance-Tuning

hashtagFür Geschwindigkeit

hashtagFür Speicher

hashtagBenchmarks

hashtagFehlerbehebung

hashtagHTTP 502 auf http_pub-URL

hashtagModell wird nicht geladen

hashtagLangsame Antworten

hashtagKein Speicher mehr

hashtagProbleme bei der Bildgenerierung

hashtagKostenabschätzung

hashtagNächste Schritte

Serveranforderungen

Was ist LocalAI?

Unterstützte Modelle

Schnelle Bereitstellung

Überprüfen, ob es funktioniert

Vorinstallierte Modelle

Zugriff auf Ihren Dienst

Docker-Bereitstellung (Alternative)

Modelle herunterladen

Aus der Modellgalerie

Von Hugging Face

Modellkonfiguration

API-Nutzung

Chat-Completions (OpenAI-kompatibel)

Streaming

Embeddings

Bildgenerierung

cURL-Beispiele

Chat

Embeddings

Text-zu-Sprache (TTS)

Speech-to-Text (STT)

Reranking

Vollständige API-Referenz

Standardendpunkte (OpenAI-kompatibel)

Zusätzliche Endpunkte

Version abrufen

Swagger-Dokumentation

GPU-Beschleunigung

CUDA-Backend

Vollständiges GPU-Offload

Mehrere Modelle

Performance-Tuning

Für Geschwindigkeit

Für Speicher

Benchmarks

Fehlerbehebung

HTTP 502 auf http_pub-URL

Modell wird nicht geladen

Langsame Antworten

Kein Speicher mehr

Probleme bei der Bildgenerierung

Kostenabschätzung

Nächste Schritte