composant Ollama
Exécutez des LLM localement avec Ollama sur les GPU Clore.ai
Exigences du serveur
Paramètre
Minimum
Recommandé
Pourquoi Ollama ?
Déploiement rapide sur CLORE.AI
Vérifiez que cela fonctionne
Accéder à votre service
Installation
Utilisation de Docker (Recommandé)
Installation manuelle
Exécution de modèles
Télécharger et exécuter
Modèles populaires
Modèle
Taille
Cas d'utilisation
Variantes de modèle
Nouveautés de la v0.6+
Sorties structurées (Schéma JSON)
Endpoint d'embeddings compatible OpenAI (/api/embed)
/api/embed)Chargement concurrent de modèles
Utilisation de l'API
Complétion de chat
Endpoint compatible OpenAI
Streaming
Embeddings
Génération de texte (Non-Chat)
Référence complète de l'API
Gestion des modèles
Point de terminaison
Méthode
Description
Lister les modèles
Afficher les détails du modèle
Télécharger un modèle via l'API
Supprimer un modèle
Lister les modèles en cours d'exécution
Obtenir la version
Endpoints d'inférence
Point de terminaison
Méthode
Description
Création de modèles personnalisés
Configuration GPU
Vérifier l'utilisation du GPU
Multi-GPU
Gestion de la mémoire
Modèles personnalisés (Modelfile)
Exécution en tant que service
Systemd
Conseils de performance
Benchmarks
Vitesse de génération (tokens/sec)
Modèle
RTX 3060
RTX 3090
RTX 4090
A100 40GB
Temps jusqu'au premier token (ms)
Modèle
RTX 3090
RTX 4090
A100
Longueur de contexte vs VRAM (Q4)
Modèle
Contexte 2K
Contexte 4K
Contexte 8K
Contexte 16K
Exigences GPU
Modèle
VRAM Q4
VRAM Q8
Estimation des coûts
GPU
VRAM
Prix/jour
Convient pour
Dépannage
Le modèle ne se charge pas
Génération lente
Connexion refusée
HTTP 502 sur l'URL http_pub
Prochaines étapes
Mis à jour
Ce contenu vous a-t-il été utile ?