LocalAI

API compatible OpenAI auto-hébergée avec LocalAI sur Clore.ai

Exécutez une API compatible OpenAI auto-hébergée avec LocalAI.

circle-check

Exigences du serveur

Paramètre
Minimum
Recommandé

RAM

8 Go

16 Go+

VRAM

6 Go

8 Go+

Réseau

200 Mbps

500 Mbps+

Temps de démarrage

5-10 minutes

-

circle-exclamation
circle-info

LocalAI est léger. Pour exécuter des LLM (modèles 7B+), choisissez des serveurs avec 16 Go+ de RAM et 8 Go+ de VRAM.

Qu'est-ce que LocalAI ?

LocalAI fournit :

  • Remplacement OpenAI API prêt à l'emploi

  • Prise en charge de plusieurs formats de modèles

  • Génération de texte, d'images, d'audio et d'embeddings

  • Pas de GPU requis (mais plus rapide avec GPU)

Modèles pris en charge

Type
Formats
Exemples

LLM

GGUF, GGML

Llama, Mistral, Phi

Embeddings

GGUF

all-MiniLM, BGE

Images

Diffusers

SD 1.5, SDXL

Audio

Whisper

Speech-to-text

TTS

Piper, Bark

Texte en parole

Déploiement rapide

Image Docker :

Ports :

Aucune commande nécessaire - le serveur démarre automatiquement.

Vérifiez que cela fonctionne

Après le déploiement, trouvez votre http_pub URL dans Mes commandes et testez :

circle-exclamation

Modèles préinstallés

LocalAI est livré avec plusieurs modèles disponibles immédiatement :

Nom du modèle
Type
Description

gpt-4

Chat

LLM à usage général

gpt-4o

Chat

LLM à usage général

gpt-4o-mini

Chat

LLM plus petit et plus rapide

whisper-1

STT

Speech-to-text

tts-1

TTS

Texte en parole

text-embedding-ada-002

Embeddings

Vecteurs de dimension 384

jina-reranker-v1-base-en

Reranking

Reclassement de documents

circle-info

Ces modèles fonctionnent immédiatement après le démarrage sans configuration supplémentaire.

Accéder à votre service

Lorsqu'il est déployé sur CLORE.AI, accédez à LocalAI via l' http_pub URL :

circle-info

Tous localhost:8080 les exemples ci-dessous fonctionnent lorsqu'ils sont connectés via SSH. Pour un accès externe, remplacez par votre https://your-http-pub.clorecloud.net/ URL.

Déploiement Docker (Alternative)

Télécharger des modèles

Depuis la galerie de modèles

LocalAI possède une galerie de modèles intégrée :

Depuis Hugging Face

Configuration du modèle

Créez un fichier de configuration YAML pour chaque modèle :

models/llama-3.1-8b.yaml :

Utilisation de l'API

Chat Completions (compatible OpenAI)

Streaming

Embeddings

Génération d'images

Exemples cURL

Chat

Embeddings

Réponse :

Texte en parole (TTS)

Voix disponibles : alloy, echo, fable, onyx, nova, shimmer

Reconnaissance vocale (STT)

Réponse :

Reranking

Reclassez les documents par pertinence par rapport à une requête :

Réponse :

Référence complète de l'API

Points de terminaison standard (compatibles OpenAI)

Point de terminaison
Méthode
Description

/v1/models

GET

Lister les modèles disponibles

/v1/chat/completions

POST

Complétion de chat

/v1/completions

POST

Complétion de texte

/v1/embeddings

POST

Générer des embeddings

/v1/audio/speech

POST

Texte en parole

/v1/audio/transcriptions

POST

Speech-to-text

/v1/images/generations

POST

Génération d'images

Points de terminaison supplémentaires

Point de terminaison
Méthode
Description

/readyz

GET

Vérification de disponibilité

/healthz

GET

Vérification de l'état

/version

GET

Obtenir la version de LocalAI

/v1/rerank

POST

Reclassement de documents

/models/available

GET

Lister les modèles de la galerie

/models/apply

POST

Installer un modèle depuis la galerie

/swagger/

GET

Documentation Swagger UI

/metrics

GET

Métriques Prometheus

Obtenir la version

Réponse :

Documentation Swagger

Ouvrez dans le navigateur pour une documentation API interactive :

Accélération GPU

Backend CUDA

Déchargement GPU complet

Modèles multiples

LocalAI peut servir plusieurs modèles simultanément :

Accédez à chacun via le nom du modèle dans les appels API.

Réglage des performances

Pour la vitesse

Pour la mémoire

Benchmarks

Modèle
GPU
Tokens/sec

Llama 3.1 8B Q4

RTX 3090

~100

Mistral 7B Q4

RTX 3090

~110

Llama 3.1 8B Q4

RTX 4090

~140

Mixtral 8x7B Q4

A100

~60

Benchmarks mis à jour en janvier 2026.

Dépannage

HTTP 502 sur l'URL http_pub

LocalAI met plus de temps à démarrer que d'autres services. Attendez 5-10 minutes et réessayez :

Le modèle ne se charge pas

  • Vérifiez le chemin du fichier dans le YAML

  • Vérifiez la compatibilité du format GGUF

  • Vérifiez la VRAM disponible

Réponses lentes

  • Augmentez gpu_layers

  • Activez use_mmap

  • Réduire context_size

Mémoire insuffisante

  • Réduire gpu_layers

  • Utilisez une quantification plus petite (Q4 au lieu de Q8)

  • Réduire la taille de batch

Problèmes de génération d'images

circle-exclamation

Estimation des coûts

Tarifs typiques du marketplace CLORE.AI :

GPU
VRAM
Prix/jour
Convient pour

RTX 3060

12Go

0,15–0,30 $

modèles 7B

RTX 3090

24 Go

0,30–1,00 $

modèles 13B

RTX 4090

24 Go

0,50–2,00 $

Inférence rapide

A100

40Go

1,50–3,00 $

Grands modèles

Prix en USD/jour. Les tarifs varient selon le fournisseur — vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?