Modèle de raisonnement DeepSeek-R1

Exécutez le modèle de raisonnement open-source DeepSeek-R1 sur les GPU Clore.ai

circle-check

Aperçu

DeepSeek-R1 est un modèle de raisonnement à poids ouverts de 671 milliards de paramètres publié en janvier 2025 par DeepSeek sous la Apache 2.0 licence. C'est le premier modèle ouvert à égaler OpenAI o1 sur les benchmarks de mathématiques, de codage et scientifiques — tout en exposant toute sa chaîne de raisonnement via des <think> étiquettes.

Le modèle complet utilise Mélange d'Experts (MoE) avec 37 milliards de paramètres actifs par token, rendant l'inférence gérable malgré le nombre de paramètres annoncé. Pour la plupart des praticiens, les variantes distillées (1,5B → 70B) sont plus pratiques : elles héritent des schémas de raisonnement de R1 par distillation des connaissances dans les architectures de base Qwen-2.5 et Llama-3 et s'exécutent sur des GPU grand public.

Principales caractéristiques

  • Chaîne de raisonnement explicite — chaque réponse commence par un <think> bloc où le modèle raisonne, revient en arrière et se corrige avant de produire une réponse finale

  • Entraîné par apprentissage par renforcement — la capacité de raisonnement émerge des signaux de récompense RL plutôt que de données de chaîne de raisonnement écrites à la main

  • Six variantes distillées — modèles de 1,5B, 7B, 8B, 14B, 32B, 70B paramètres distillés à partir du 671B complet dans les architectures Qwen et Llama

  • Licence Apache 2.0 — entièrement commercial, sans redevances, sans restrictions d'utilisation

  • Large prise en charge des frameworks — Ollama, vLLM, llama.cpp, SGLang, Transformers, TGI fonctionnent tous immédiatement

  • AIME 2024 Pass@1 : 79,8 % — à égalité avec OpenAI o1 en mathématiques de compétition

  • Elo Codeforces 2029 — dépasse les 1891 d'o1 en programmation compétitive

Variantes de modèle

Variante
Paramètres
Architecture
VRAM FP16
VRAM Q4
Disque Q4

DeepSeek-R1 (MoE complet)

671B (37B actifs)

DeepSeek MoE

~1,3 To

~350 Go

~340 Go

R1-Distill-Llama-70B

70B

Llama 3

140 Go

40 Go

42 Go

R1-Distill-Qwen-32B

32B

Qwen 2.5

64 Go

22 Go

20 Go

R1-Distill-Qwen-14B

14B

Qwen 2.5

28 Go

10 Go

9 Go

R1-Distill-Llama-8B

8B

Llama 3

16 Go

6 Go

5,5 Go

R1-Distill-Qwen-7B

7B

Qwen 2.5

14 Go

5 Go

4,5 Go

R1-Distill-Qwen-1.5B

1,5B

Qwen 2.5

3 Go

2 Go

1,2 Go

Choisir une variante

Cas d'utilisation
Variante recommandée
GPU sur Clore

Expériences rapides, tests en périphérie

R1-Distill-Qwen-1.5B

N'importe quel GPU

Déploiement à budget, inférence rapide

R1-Distill-Qwen-7B

RTX 3090 (~0,30–1 $/jour)

Point idéal pour la production sur GPU unique

R1-Distill-Qwen-14B Q4

RTX 4090 (~0,50–2 $/jour)

Meilleur rapport qualité-prix (recommandé)

R1-Distill-Qwen-32B Q4

RTX 4090 24 GB ou A100 40 GB

Qualité distillée maximale

R1-Distill-Llama-70B

2× A100 80 GB

Recherche, raisonnement en pleine fidélité

DeepSeek-R1 671B

Cluster 8× H100

Dépôts HuggingFace

Exigences

Composant
Minimum (7B Q4)
Recommandé (32B Q4)

VRAM GPU

6 Go

24 Go

RAM système

16 Go

32 Go

Disque

10 Go

30 Go

CUDA

12.1+

12.4+

Docker

24.0+

25.0+

Démarrage rapide Ollama

Ollama gère automatiquement la quantification, le téléchargement et la mise en service — le chemin le plus rapide vers un DeepSeek-R1 opérationnel.

Installer et exécuter

Exemple de session interactive

Utilisez l'API compatible OpenAI

Client Python (via le SDK OpenAI)

Configuration vLLM pour la production

vLLM offre le débit le plus élevé pour la mise en service multi-utilisateurs avec regroupement continu, PagedAttention et mise en cache de préfixe.

GPU unique — 7B / 14B

Multi-GPU — 32B (recommandé)

Conseil : Le point de contrôle 32B Q4 GPTQ ou AWQ tient sur un seul RTX 4090 (24 GB) :

Multi-GPU — 70B

Interroger le point de terminaison vLLM

Transformers / Python (avec <think> Analyse d'étiquettes)

Utilisez HuggingFace Transformers lorsque vous avez besoin d'un contrôle fin sur la génération ou que vous souhaitez intégrer R1 dans un pipeline Python.

Génération de base

Analyse <think> étiquettes

Streaming avec <think> suivi d'état

Déploiement Docker sur Clore.ai

Ollama Docker (le plus simple)

Image Docker : ollama/ollama Ports : 22/tcp, 11434/http

vLLM Docker (production)

Image Docker : vllm/vllm-openai:latest Ports : 22/tcp, 8000/http

Déployer sur Clore.ai :

  1. Filtrer par 2× GPU, 48 Go+ VRAM total (par ex. 2× RTX 4090 ou A100 80 GB)

  2. Définir l'image Docker sur vllm/vllm-openai:latest

  3. Mapper le port 8000 en HTTP

  4. Collez la commande du fichier compose ci-dessus dans la commande de démarrage

  5. Connectez-vous via le point de terminaison HTTP une fois que le contrôle de santé est passé

Conseils pour les déploiements Clore.ai

Choisir le bon GPU

Économique
GPU
Coût journalier
Meilleure variante

Minimale

RTX 3090 (24 GB)

0,30 $ – 1,00 $

R1-Distill-Qwen-7B ou 14B Q4

Standard

RTX 4090 (24 GB)

0,50 $ – 2,00 $

R1-Distill-Qwen-14B FP16 ou 32B Q4

Production

A100 80 Go

3 $ – 8 $

R1-Distill-Qwen-32B FP16

Haute qualité

2× A100 80 GB

6 $ – 16 $

R1-Distill-Llama-70B FP16

Ajustement des performances

  • Température 0,6 est la valeur par défaut recommandée pour les tâches de raisonnement — les propres articles de DeepSeek utilisent cette valeur

  • Définir max_tokens généreusement — les modèles de raisonnement produisent de longs <think> blocs ; 4096+ pour des problèmes non triviaux

  • Activer la mise en cache de préfixe (--enable-prefix-caching dans vLLM) lors de l'utilisation d'une invite système partagée

  • Limiter la concurrence (--max-num-seqs 16) pour les charges de travail de raisonnement — chaque requête utilise plus de calcul qu'un chat standard

  • Utiliser la quantification Q4 pour faire tenir 32B sur un seul GPU 24 GB avec une perte de qualité minimale (la distillation compresse déjà les connaissances de R1)

Considérations sur la longueur du contexte

Les modèles de raisonnement consomment plus de contexte que les modèles de chat standards en raison du <think> bloc :

Complexité de la tâche
Longueur de réflexion typique
Contexte total nécessaire

Arithmétique simple

~100 tokens

~300 tokens

Génération de code

~500–1000 tokens

~2000 tokens

Mathématiques de compétition (AIME)

~2000–4000 tokens

~5000 tokens

Analyse de recherche en plusieurs étapes

~4000–8000 tokens

~10000 tokens

Dépannage

Mémoire insuffisante (OOM)

Le modèle ne produit pas de <think> bloc

Certaines invites système suppriment la réflexion. Évitez les instructions comme « soyez concis » ou « n'expliquez pas votre raisonnement ». Utilisez une invite système minimale ou aucune :

Sortie répétitive ou en boucle <think> sortie

Réduisez la température pour diminuer l'aléa dans la chaîne de raisonnement :

Premier token lent (TTFT élevé)

Ceci est attendu — le modèle génère <think> tokens avant la réponse visible. Pour les applications sensibles à la latence où le raisonnement n'est pas nécessaire, utilisez DeepSeek-V3 à la place.

Le téléchargement stagne sur l'instance Clore

Les téléchargements HuggingFace peuvent être lents chez certains fournisseurs. Pré-cachez le modèle dans un volume persistant :

Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?