LocalAI

API compatible OpenAI auto-hébergée avec LocalAI sur Clore.ai

Exécutez une API compatible OpenAI auto-hébergée avec LocalAI.

Tous les exemples peuvent être exécutés sur des serveurs GPU loués via CLORE.AI Marketplace.

Exigences du serveur

Paramètre

Minimum

Recommandé

RAM

8 Go

16 Go+

VRAM

6 Go

8 Go+

Réseau

200 Mbps

500 Mbps+

Temps de démarrage

5-10 minutes

Important : LocalAI met 5 à 10 minutes à s'initialiser complètement au premier démarrage. Un HTTP 502 pendant cette période est normal - le service télécharge et charge les modèles.

LocalAI est léger. Pour exécuter des LLM (modèles 7B+), choisissez des serveurs avec 16 Go+ de RAM et 8 Go+ de VRAM.

Qu'est-ce que LocalAI ?

LocalAI fournit :

Remplacement OpenAI API prêt à l'emploi
Prise en charge de plusieurs formats de modèles
Génération de texte, d'images, d'audio et d'embeddings
Pas de GPU requis (mais plus rapide avec GPU)

Modèles pris en charge

Type

Formats

Exemples

LLM

GGUF, GGML

Llama, Mistral, Phi

Embeddings

GGUF

all-MiniLM, BGE

Images

Diffusers

SD 1.5, SDXL

Audio

Whisper

Speech-to-text

TTS

Piper, Bark

Texte en parole

Déploiement rapide

Image Docker :

localai/localai:master-aio-gpu-nvidia-cuda-12

Ports :

22/tcp
8080/http

Aucune commande nécessaire - le serveur démarre automatiquement.

Vérifiez que cela fonctionne

Après le déploiement, trouvez votre http_pub URL dans Mes commandes et testez :

# Vérifier si le service est prêt
curl https://your-http-pub.clorecloud.net/readyz

# Lister les modèles disponibles
curl https://your-http-pub.clorecloud.net/v1/models

# Obtenir la version
curl https://your-http-pub.clorecloud.net/version

Si vous obtenez HTTP 502, attendez 5 à 10 minutes - LocalAI met plus de temps à s'initialiser que d'autres services.

Modèles préinstallés

LocalAI est livré avec plusieurs modèles disponibles immédiatement :

Nom du modèle

Type

Description

gpt-4

Chat

LLM à usage général

gpt-4o

Chat

LLM à usage général

gpt-4o-mini

Chat

LLM plus petit et plus rapide

whisper-1

STT

Speech-to-text

tts-1

TTS

Texte en parole

text-embedding-ada-002

Embeddings

Vecteurs de dimension 384

jina-reranker-v1-base-en

Reranking

Reclassement de documents

Ces modèles fonctionnent immédiatement après le démarrage sans configuration supplémentaire.

Accéder à votre service

Lorsqu'il est déployé sur CLORE.AI, accédez à LocalAI via l' http_pub URL :

# Complétion de chat
curl https://your-http-pub.clorecloud.net/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "gpt-4",
        "messages": [{"role": "user", "content": "Bonjour !"}]
    }'

Tous localhost:8080 les exemples ci-dessous fonctionnent lorsqu'ils sont connectés via SSH. Pour un accès externe, remplacez par votre https://your-http-pub.clorecloud.net/ URL.

Déploiement Docker (Alternative)

docker run -d \
    --gpus all \
    -p 8080:8080 \
    -v /workspace/models:/models \
    -e THREADS=4 \
    -e CONTEXT_SIZE=4096 \
    localai/localai:master-aio-gpu-nvidia-cuda-12

Télécharger des modèles

Depuis la galerie de modèles

LocalAI possède une galerie de modèles intégrée :

# Lister les modèles disponibles
curl http://localhost:8080/models/available

# Installer depuis la galerie
curl http://localhost:8080/models/apply -d '{"id": "mistral-7b-instruct"}'

Depuis Hugging Face

mkdir -p /workspace/models

# Llama 3.1 8B GGUF
wget https://huggingface.co/bartowski/Meta-Llama-3.1-8B-Instruct-GGUF/resolve/main/Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf \
    -O /workspace/models/llama-3.1-8b.gguf

# Mistral 7B GGUF
wget https://huggingface.co/bartowski/Mistral-7B-Instruct-v0.3-GGUF/resolve/main/Mistral-7B-Instruct-v0.3-Q4_K_M.gguf \
    -O /workspace/models/mistral-7b.gguf

Configuration du modèle

Créez un fichier de configuration YAML pour chaque modèle :

models/llama-3.1-8b.yaml :

name: llama-3.1-8b
backend: llama-cpp
parameters :
  model: llama-3.1-8b.gguf
  context_size: 4096
  threads: 8
  gpu_layers: 35
template :
  chat : |
    {{.Input}}
    ### Réponse :
  completion : |
    {{.Input}}

Utilisation de l'API

Chat Completions (compatible OpenAI)

import openai

# Pour un accès externe, utilisez votre URL http_pub :
client = openai.OpenAI(
    base_url="https://your-http-pub.clorecloud.net/v1",
    api_key="non-nécessaire"
)

# Ou via un tunnel SSH :
# client = openai.OpenAI(base_url="http://localhost:8080/v1", api_key="not-needed")

response = client.chat.completions.create(
    model="mistral-7b",
    messages=[
        {"role": "system", "content": "Vous êtes un assistant serviable."},
        {"role": "user", "content": "Expliquez l'informatique quantique en termes simples."}
    ],
    temperature=0.7,
    max_tokens=500
)

print(response.choices[0].message.content)

Streaming

stream = client.chat.completions.create(
    model="mistral-7b",
    messages=[{"role": "user", "content": "Écris un poème sur l'IA"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

Embeddings

response = client.embeddings.create(
    model="all-minilm",
    input="The quick brown fox jumps over the lazy dog"
)

embedding = response.data[0].embedding
print(f"Dimension de l'embedding : {len(embedding)}")

Génération d'images

response = client.images.generate(
    model="stablediffusion",
    prompt="un magnifique coucher de soleil sur des montagnes",
    size="512x512",
    n=1
)

image_url = response.data[0].url

Exemples cURL

Chat

curl https://your-http-pub.clorecloud.net/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "mistral-7b",
        "messages": [{"role": "user", "content": "Bonjour !"}]
    }'

Embeddings

curl https://your-http-pub.clorecloud.net/v1/embeddings \
    -H "Content-Type: application/json" \
    -d '{
        "model": "text-embedding-ada-002",
        "input": "Votre texte ici"
    }'

Réponse :

{
  "data": [{"embedding": [0.1, -0.2, ...], "index": 0}],
  "model": "text-embedding-ada-002",
  "usage": {"prompt_tokens": 4, "total_tokens": 4}
}

Texte en parole (TTS)

curl https://your-http-pub.clorecloud.net/v1/audio/speech \
    -H "Content-Type: application/json" \
    -d '{
        "model": "tts-1",
        "input": "Bonjour, bienvenue sur LocalAI !",
        "voice": "alloy"
    }' \
    --output speech.wav

Voix disponibles : alloy, echo, fable, onyx, nova, shimmer

Reconnaissance vocale (STT)

curl https://your-http-pub.clorecloud.net/v1/audio/transcriptions \
    -F "[email protected]" \
    -F "model=whisper-1"

Réponse :

{"text": "Texte transcrit ici..."}

Reranking

Reclassez les documents par pertinence par rapport à une requête :

curl https://your-http-pub.clorecloud.net/v1/rerank \
    -H "Content-Type: application/json" \
    -d '{
        "model": "jina-reranker-v1-base-en",
        "query": "Qu'est-ce que l'apprentissage automatique ?",
        "documents": [
            "L'apprentissage automatique est un sous-ensemble de l'IA",
            "Il fait beau aujourd'hui",
            "L'apprentissage profond utilise des réseaux neuronaux"
        ],
        "top_n": 2
    }'

Réponse :

{
  "results": [
    {"index": 0, "relevance_score": 0.95},
    {"index": 2, "relevance_score": 0.82}
  ]
}

Référence complète de l'API

Points de terminaison standard (compatibles OpenAI)

Point de terminaison

Méthode

Description

/v1/models

GET

Lister les modèles disponibles

/v1/chat/completions

POST

Complétion de chat

/v1/completions

POST

Complétion de texte

/v1/embeddings

POST

Générer des embeddings

/v1/audio/speech

POST

Texte en parole

/v1/audio/transcriptions

POST

Speech-to-text

/v1/images/generations

POST

Génération d'images

Points de terminaison supplémentaires

Point de terminaison

Méthode

Description

/readyz

GET

Vérification de disponibilité

/healthz

GET

Vérification de l'état

/version

GET

Obtenir la version de LocalAI

/v1/rerank

POST

Reclassement de documents

/models/available

GET

Lister les modèles de la galerie

/models/apply

POST

Installer un modèle depuis la galerie

/swagger/

GET

Documentation Swagger UI

/metrics

GET

Métriques Prometheus

Obtenir la version

curl https://your-http-pub.clorecloud.net/version

Réponse :

{"version": "v2.26.0"}

Documentation Swagger

Ouvrez dans le navigateur pour une documentation API interactive :

https://your-http-pub.clorecloud.net/swagger/

Accélération GPU

Backend CUDA

# Dans la config du modèle
parameters :
  gpu_layers: 35  # Nombre de couches sur le GPU
  f16: true       # Utiliser FP16

Déchargement GPU complet

parameters :
  gpu_layers: 99  # Toutes les couches sur le GPU
  main_gpu: 0     # ID du GPU principal

Modèles multiples

LocalAI peut servir plusieurs modèles simultanément :

models/
├── llama-3.1-8b.yaml
├── llama-3.1-8b.gguf
├── mistral-7b.yaml
├── mistral-7b.gguf
├── whisper.yaml
└── whisper-base.bin

Accédez à chacun via le nom du modèle dans les appels API.

Réglage des performances

Pour la vitesse

parameters :
  threads: 8
  gpu_layers: 99
  batch_size: 512
  use_mmap: true
  use_mlock: true

Pour la mémoire

parameters :
  gpu_layers: 20  # Déchargement partiel
  context_size: 2048  # Contexte plus petit
  batch_size: 256

Benchmarks

Modèle

GPU

Tokens/sec

Llama 3.1 8B Q4

RTX 3090

~100

Mistral 7B Q4

RTX 3090

~110

Llama 3.1 8B Q4

RTX 4090

~140

Mixtral 8x7B Q4

A100

~60

Benchmarks mis à jour en janvier 2026.

Dépannage

HTTP 502 sur l'URL http_pub

LocalAI met plus de temps à démarrer que d'autres services. Attendez 5-10 minutes et réessayez :

# Vérifier la disponibilité
curl https://your-http-pub.clorecloud.net/readyz

# Vérifier la santé
curl https://your-http-pub.clorecloud.net/healthz

Le modèle ne se charge pas

Vérifiez le chemin du fichier dans le YAML
Vérifiez la compatibilité du format GGUF
Vérifiez la VRAM disponible

Réponses lentes

Augmentez gpu_layers
Activez use_mmap
Réduire context_size

Mémoire insuffisante

Réduire gpu_layers
Utilisez une quantification plus petite (Q4 au lieu de Q8)
Réduire la taille de batch

Problèmes de génération d'images

Stable Diffusion peut présenter des problèmes de compatibilité CUDA sur certaines configurations GPU. Si vous rencontrez des erreurs CUDA lors de la génération d'images, envisagez d'utiliser une image Stable Diffusion dédiée à la place.

Estimation des coûts

Tarifs typiques du marketplace CLORE.AI :

GPU

VRAM

Prix/jour

Convient pour

RTX 3060

12Go

0,15–0,30 $

modèles 7B

RTX 3090

24 Go

0,30–1,00 $

modèles 13B

RTX 4090

24 Go

0,50–2,00 $

Inférence rapide

A100

40Go

1,50–3,00 $

Grands modèles

Prix en USD/jour. Les tarifs varient selon le fournisseur — vérifiez CLORE.AI Marketplace pour les tarifs actuels.

Prochaines étapes

Inférence vLLM - Débit plus élevé
Guide Ollama - Configuration plus simple
RAG avec LangChain - Construire des applications

PrécédentExLlamaV2 SuivantLlama 3.3 70B

Mis à jour il y a 21 jours

Ce contenu vous a-t-il été utile ?

hashtagExigences du serveur

hashtagQu'est-ce que LocalAI ?

hashtagModèles pris en charge

hashtagDéploiement rapide

hashtagVérifiez que cela fonctionne

hashtagModèles préinstallés

hashtagAccéder à votre service

hashtagDéploiement Docker (Alternative)

hashtagTélécharger des modèles

hashtagDepuis la galerie de modèles

hashtagDepuis Hugging Face

hashtagConfiguration du modèle

hashtagUtilisation de l'API

hashtagChat Completions (compatible OpenAI)

hashtagStreaming

hashtagEmbeddings

hashtagGénération d'images

hashtagExemples cURL

hashtagChat

hashtagEmbeddings

hashtagTexte en parole (TTS)

hashtagReconnaissance vocale (STT)

hashtagReranking

hashtagRéférence complète de l'API

hashtagPoints de terminaison standard (compatibles OpenAI)

hashtagPoints de terminaison supplémentaires

hashtagObtenir la version

hashtagDocumentation Swagger

hashtagAccélération GPU

hashtagBackend CUDA

hashtagDéchargement GPU complet

hashtagModèles multiples

hashtagRéglage des performances

hashtagPour la vitesse

hashtagPour la mémoire

hashtagBenchmarks

hashtagDépannage

hashtagHTTP 502 sur l'URL http_pub

hashtagLe modèle ne se charge pas

hashtagRéponses lentes

hashtagMémoire insuffisante

hashtagProblèmes de génération d'images

hashtagEstimation des coûts

hashtagProchaines étapes

Exigences du serveur

Qu'est-ce que LocalAI ?

Modèles pris en charge

Déploiement rapide

Vérifiez que cela fonctionne

Modèles préinstallés

Accéder à votre service

Déploiement Docker (Alternative)

Télécharger des modèles

Depuis la galerie de modèles

Depuis Hugging Face

Configuration du modèle

Utilisation de l'API

Chat Completions (compatible OpenAI)

Streaming

Embeddings

Génération d'images

Exemples cURL

Chat

Embeddings

Texte en parole (TTS)

Reconnaissance vocale (STT)

Reranking

Référence complète de l'API

Points de terminaison standard (compatibles OpenAI)

Points de terminaison supplémentaires

Obtenir la version

Documentation Swagger

Accélération GPU

Backend CUDA

Déchargement GPU complet

Modèles multiples

Réglage des performances

Pour la vitesse

Pour la mémoire

Benchmarks

Dépannage

HTTP 502 sur l'URL http_pub

Le modèle ne se charge pas

Réponses lentes

Mémoire insuffisante

Problèmes de génération d'images

Estimation des coûts

Prochaines étapes