composant Ollama

Exécutez des LLM localement avec Ollama sur les GPU Clore.ai

La façon la plus simple d'exécuter des LLM localement sur les GPU CLORE.AI.

circle-info

Version actuelle : v0.6+ — Ce guide couvre Ollama v0.6 et versions ultérieures. Les nouvelles fonctionnalités clés incluent des sorties structurées (application d'un schéma JSON), un endpoint d'embeddings compatible OpenAI (/api/embed), et le chargement concurrent de modèles (exécutez plusieurs modèles simultanément sans échange). Voir Nouveautés de la v0.6+ pour les détails.

circle-check

Exigences du serveur

Paramètre
Minimum
Recommandé

RAM

8 Go

16 Go+

VRAM

6 Go

8 Go+

Réseau

100Mbps

500 Mbps+

Temps de démarrage

~30 secondes

-

circle-info

Ollama est léger et fonctionne sur la plupart des serveurs GPU. Pour les modèles plus volumineux (13B+), choisissez des serveurs avec 16 Go+ de RAM et 12 Go+ de VRAM.

Pourquoi Ollama ?

  • Installation en une commande - Pas de Python, pas de dépendances

  • Bibliothèque de modèles - Téléchargez des modèles avec ollama pull

  • API compatible OpenAI - Remplaçant direct

  • Accélération GPU - Détection CUDA automatique

  • Multi-modèle - Exécutez plusieurs modèles simultanément (v0.6+)

Déploiement rapide sur CLORE.AI

Image Docker :

Ports :

Commande :

Vérifiez que cela fonctionne

Après le déploiement, trouvez votre http_pub URL dans Mes commandes et testez :

circle-exclamation

Accéder à votre service

Lorsqu'il est déployé sur CLORE.AI, accédez à votre instance Ollama via le http_pub URL :

circle-info

Tous localhost:11434 les exemples ci-dessous fonctionnent lorsqu'ils sont connectés via SSH. Pour un accès externe, remplacez par votre https://your-http-pub.clorecloud.net/ URL.

Installation

Utilisation de Docker (Recommandé)

Installation manuelle

Cette commande unique installe la dernière version d'Ollama, configure le service systemd et configure automatiquement la détection GPU. Fonctionne sur Ubuntu, Debian, Fedora et la plupart des distributions Linux modernes.

Exécution de modèles

Télécharger et exécuter

Modèles populaires

Modèle
Taille
Cas d'utilisation

llama3.2

3B

Rapide, usage général

llama3.1

8B

Meilleure qualité

llama3.1:70b

70B

Meilleure qualité

mistral

7B

Rapide, bonne qualité

mixtral

47B

MoE, haute qualité

codellama

7-34B

Génération de code

deepseek-coder-v2

16B

Meilleur pour le code

deepseek-r1

7B-671B

Modèle de raisonnement

deepseek-r1:32b

32B

Raisonnement équilibré

qwen2.5

7B

Multilingue

qwen2.5:72b

72B

Meilleure qualité Qwen

phi4

14B

Dernier modèle de Microsoft

gemma2

9B

Modèle de Google

Variantes de modèle

Nouveautés de la v0.6+

Ollama v0.6 a introduit plusieurs fonctionnalités majeures pour les charges de production :

Sorties structurées (Schéma JSON)

Forcer les réponses du modèle à correspondre à un schéma JSON spécifique. Utile pour construire des applications nécessitant une sortie fiable et analysable :

Exemple Python avec sorties structurées :

Endpoint d'embeddings compatible OpenAI (/api/embed)

Nouveauté de la v0.6+ : le /api/embed endpoint est pleinement compatible OpenAI et prend en charge les entrées par lot :

Le client OpenAI fonctionne directement avec /v1/embeddings:

Modèles d'embedding populaires :

Chargement concurrent de modèles

Avant v0.6, Ollama déchargeait un modèle pour en charger un autre. La v0.6+ prend en charge l'exécution de plusieurs modèles simultanément, limitée uniquement par la VRAM disponible :

Configurer la concurrence :

Ceci est particulièrement utile pour :

  • Tests A/B de différents modèles

  • Modèles spécialisés pour différentes tâches (codage + chat)

  • Garder en mémoire VRAM les modèles fréquemment utilisés

Utilisation de l'API

Complétion de chat

circle-info

Ajoutez "stream": false pour obtenir la réponse complète en une seule fois au lieu du streaming.

Endpoint compatible OpenAI

Streaming

Embeddings

Génération de texte (Non-Chat)

Référence complète de l'API

Tous les endpoints fonctionnent à la fois avec http://localhost:11434 (via SSH) et https://your-http-pub.clorecloud.net (externe).

Gestion des modèles

Point de terminaison
Méthode
Description

/api/tags

GET

Lister tous les modèles téléchargés

/api/show

POST

Obtenir les détails du modèle

/api/pull

POST

Télécharger un modèle

/api/delete

DELETE

Supprimer un modèle

/api/ps

GET

Lister les modèles actuellement en cours d'exécution

/api/version

GET

Obtenir la version d'Ollama

Lister les modèles

Réponse :

Afficher les détails du modèle

Télécharger un modèle via l'API

Réponse :

circle-exclamation

Supprimer un modèle

Lister les modèles en cours d'exécution

Réponse :

Obtenir la version

Réponse :

Endpoints d'inférence

Point de terminaison
Méthode
Description

/api/generate

POST

Complétion de texte

/api/chat

POST

Complétion de chat

/api/embeddings

POST

Générer des embeddings (legacy)

/api/embed

POST

Générer des embeddings v0.6+ (lot, compatible OpenAI)

/v1/chat/completions

POST

Chat compatible OpenAI

/v1/embeddings

POST

Embeddings compatibles OpenAI

Création de modèles personnalisés

Créez des modèles personnalisés avec des prompts système spécifiques via l'API :

Configuration GPU

Vérifier l'utilisation du GPU

Multi-GPU

Ollama utilise automatiquement les GPU disponibles. Pour un GPU spécifique :

Gestion de la mémoire

Modèles personnalisés (Modelfile)

Créez des modèles personnalisés avec des prompts système :

Exécution en tant que service

Systemd

Conseils de performance

  1. Utilisez une quantification adaptée

    • Q4_K_M pour la vitesse

    • Q8_0 pour la qualité

    • fp16 pour la qualité maximale

  2. Adaptez le modèle à la VRAM

    • 8GB : modèles 7B (Q4)

    • 16GB : modèles 13B ou 7B (Q8)

    • 24GB : modèles 34B (Q4)

    • 48GB+ : modèles 70B

  3. Garder le modèle chargé

  4. Un SSD rapide améliore les performances

    • Le chargement du modèle et le cache KV bénéficient d'un stockage rapide

    • Les serveurs avec SSD NVMe peuvent atteindre des performances 2 à 3 fois supérieures

Benchmarks

Vitesse de génération (tokens/sec)

Modèle
RTX 3060
RTX 3090
RTX 4090
A100 40GB

Llama 3.2 3B (Q4)

120

160

200

220

Llama 3.1 8B (Q4)

60

100

130

150

Llama 3.1 8B (Q8)

45

80

110

130

Mistral 7B (Q4)

70

110

140

160

Mixtral 8x7B (Q4)

-

35

55

75

Llama 3.1 70B (Q4)

-

-

18

35

DeepSeek-R1 7B (Q4)

65

105

135

155

DeepSeek-R1 32B (Q4)

-

-

22

42

Qwen2.5 72B (Q4)

-

-

15

30

Phi-4 14B (Q4)

-

50

75

90

Benchmarks mis à jour en janvier 2026. Les vitesses réelles peuvent varier selon la configuration du serveur.

Temps jusqu'au premier token (ms)

Modèle
RTX 3090
RTX 4090
A100

3B

50

35

25

7-8B

120

80

60

13B

250

150

100

34B

600

350

200

70B

-

1200

500

Longueur de contexte vs VRAM (Q4)

Modèle
Contexte 2K
Contexte 4K
Contexte 8K
Contexte 16K

7B

5Go

6 Go

8 Go

12Go

13B

8 Go

10Go

14GB

22Go

34B

20Go

24 Go

32Go

48Go

70B

40Go

48Go

64Go

96GB

Exigences GPU

Modèle
VRAM Q4
VRAM Q8

3B

3 Go

5Go

7-8B

5Go

9 Go

13B

8 Go

15Go

34B

20Go

38GB

70B

40Go

75GB

Estimation des coûts

Tarifs typiques du marketplace CLORE.AI :

GPU
VRAM
Prix/jour
Convient pour

RTX 3060

12Go

0,15–0,30 $

modèles 7B

RTX 3090

24 Go

0,30–1,00 $

Modèles 13B-34B

RTX 4090

24 Go

0,50–2,00 $

Modèles 34B, rapide

A100

40Go

1,50–3,00 $

Modèles 70B

Prix en USD/jour. Les tarifs varient selon le fournisseur — vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Dépannage

Le modèle ne se charge pas

Génération lente

Connexion refusée

HTTP 502 sur l'URL http_pub

Cela signifie que le service est encore en cours de démarrage. Attendez 30-60 secondes et réessayez :

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?