Modèle de raisonnement DeepSeek-R1
Exécutez le modèle de raisonnement open-source DeepSeek-R1 sur les GPU Clore.ai
Aperçu
Principales caractéristiques
Variantes de modèle
Variante
Paramètres
Architecture
VRAM FP16
VRAM Q4
Disque Q4
Choisir une variante
Cas d'utilisation
Variante recommandée
GPU sur Clore
Dépôts HuggingFace
Variante
Dépôt
Exigences
Composant
Minimum (7B Q4)
Recommandé (32B Q4)
Démarrage rapide Ollama
Installer et exécuter
Exemple de session interactive
Utilisez l'API compatible OpenAI
Client Python (via le SDK OpenAI)
Configuration vLLM pour la production
GPU unique — 7B / 14B
Multi-GPU — 32B (recommandé)
Multi-GPU — 70B
Interroger le point de terminaison vLLM
Transformers / Python (avec <think> Analyse d'étiquettes)
<think> Analyse d'étiquettes)Génération de base
Analyse <think> étiquettes
<think> étiquettesStreaming avec <think> suivi d'état
<think> suivi d'étatDéploiement Docker sur Clore.ai
Ollama Docker (le plus simple)
vLLM Docker (production)
Conseils pour les déploiements Clore.ai
Choisir le bon GPU
Économique
GPU
Coût journalier
Meilleure variante
Ajustement des performances
Considérations sur la longueur du contexte
Complexité de la tâche
Longueur de réflexion typique
Contexte total nécessaire
Dépannage
Mémoire insuffisante (OOM)
Le modèle ne produit pas de <think> bloc
<think> blocSortie répétitive ou en boucle <think> sortie
<think> sortiePremier token lent (TTFT élevé)
Le téléchargement stagne sur l'instance Clore
Lectures complémentaires
Mis à jour
Ce contenu vous a-t-il été utile ?