DeepSeek-R1 Reasoning-Modell

Führen Sie das Open-Source-Reasoning-Modell DeepSeek-R1 auf Clore.ai GPUs aus

circle-check

Überblick

DeepSeek-R1 ist ein 671-Milliarden-Parameter Open-Weight-Reasoning-Modell, das im Januar 2025 von DeepSeek unter der Apache 2.0 Lizenz veröffentlicht wurde. Es ist das erste offene Modell, das OpenAI o1 in Mathematik-, Programmier- und wissenschaftlichen Benchmarks erreicht — während es seine gesamte Denkweise über explizite <think> Tags offenlegt.

Das vollständige Modell verwendet Mixture-of-Experts (MoE) mit 37 Milliarden aktiven Parametern pro Token, wodurch die Inferenz trotz der Schlagzeilenzahl der Parameter praktikabel bleibt. Für die meisten Anwender sind die distillierten Varianten (1,5B → 70B) praktischer: Sie übernehmen R1s Denkpatterns durch Wissensdistillation in Qwen-2.5- und Llama-3-Basisarchitekturen und laufen auf handelsüblichen GPUs.

Hauptmerkmale

  • Explizite Chain-of-Thought — jede Antwort beginnt mit einem <think> Block, in dem das Modell denkt, zurückverfolgt und sich selbst korrigiert, bevor es eine endgültige Antwort liefert

  • Durch Reinforcement Learning trainiert — die Fähigkeit zum Schließen ergibt sich aus RL-Belohnungssignalen und nicht aus handerstellten Chain-of-Thought-Daten

  • Sechs distillierte Varianten — 1,5B, 7B, 8B, 14B, 32B, 70B Parameter-Modelle, vom vollständigen 671B in Qwen- und Llama-Architekturen distilliert

  • Apache-2.0-Lizenz — vollständig kommerziell, keine Lizenzgebühren, keine Nutzungsbeschränkungen

  • Breite Framework-Unterstützung — Ollama, vLLM, llama.cpp, SGLang, Transformers, TGI funktionieren alle sofort

  • AIME 2024 Pass@1: 79,8 % — gleichauf mit OpenAI o1 bei Wettbewerbs-Mathematik

  • Codeforces 2029 Elo — übertrifft o1s 1891 im Wettbewerbprogrammieren

Modellvarianten

Variante
Parameter
Architektur
FP16 VRAM
Q4 VRAM
Q4 Festplatte

DeepSeek-R1 (volles MoE)

671B (37B aktiv)

DeepSeek MoE

~1,3 TB

~350 GB

~340 GB

R1-Distill-Llama-70B

70B

Llama 3

140 GB

40 GB

42 GB

R1-Distill-Qwen-32B

32B

Qwen 2.5

64 GB

22 GB

20 GB

R1-Distill-Qwen-14B

14B

Qwen 2.5

28 GB

10 GB

9 GB

R1-Distill-Llama-8B

8B

Llama 3

16 GB

6 GB

5,5 GB

R1-Distill-Qwen-7B

7B

Qwen 2.5

14 GB

5 GB

4,5 GB

R1-Distill-Qwen-1.5B

1.5B

Qwen 2.5

3 GB

2 GB

1,2 GB

Wahl einer Variante

Einsatzgebiet
Empfohlene Variante
GPU auf Clore

Schnelle Experimente, Edge-Tests

R1-Distill-Qwen-1.5B

Beliebige GPU

Budget-Bereitstellung, schnelle Inferenz

R1-Distill-Qwen-7B

RTX 3090 (~0,30–1 $/Tag)

Sweetspot für Single-GPU-Produktion

R1-Distill-Qwen-14B Q4

RTX 4090 (~0,50–2 $/Tag)

Bestes Preis-Leistungs-Verhältnis (empfohlen)

R1-Distill-Qwen-32B Q4

RTX 4090 24 GB oder A100 40 GB

Maximale distillierte Qualität

R1-Distill-Llama-70B

2× A100 80 GB

Forschung, vollauflösendes Reasoning

DeepSeek-R1 671B

8× H100-Cluster

HuggingFace-Repositories

Anforderungen

Komponente
Minimum (7B Q4)
Empfohlen (32B Q4)

GPU-VRAM

6 GB

24 GB

System-RAM

16 GB

32 GB

Festplatte

10 GB

30 GB

CUDA

12.1+

12.4+

Docker

24.0+

25.0+

Ollama Quick Start

Ollama übernimmt Quantisierung, Herunterladen und Serving automatisch — der schnellste Weg zu einem laufenden DeepSeek-R1.

Installieren und ausführen

Beispiel einer interaktiven Sitzung

Verwende die OpenAI-kompatible API

Python-Client (via OpenAI SDK)

vLLM Produktions-Setup

vLLM liefert den höchsten Durchsatz für Multi-User-Serving mit kontinuierlichem Batching, PagedAttention und Prefix-Caching.

Single GPU — 7B / 14B

Multi-GPU — 32B (empfohlen)

Tipp: Der 32B Q4 GPTQ- oder AWQ-Checkpoint passt auf eine einzelne RTX 4090 (24 GB):

Multi-GPU — 70B

Frage den vLLM-Endpunkt ab

Transformers / Python (mit <think> Tag-Parsing)

Verwende HuggingFace Transformers, wenn du feinkörnige Kontrolle über die Generierung brauchst oder R1 in eine Python-Pipeline integrieren möchtest.

Basisgenerierung

Parsing <think> Tags

Streaming mit <think> Statusverfolgung

Docker-Bereitstellung auf Clore.ai

Ollama Docker (einfachste Lösung)

Docker-Image: ollama/ollama Ports: 22/tcp, 11434/http

vLLM Docker (Produktion)

Docker-Image: vllm/vllm-openai:latest Ports: 22/tcp, 8000/http

Bereitstellen auf Clore.ai:

  1. Filtern nach 2× GPU, insgesamt 48 GB+ VRAM (z. B. 2× RTX 4090 oder A100 80 GB)

  2. Setze das Docker-Image auf vllm/vllm-openai:latest

  3. Port mappen 8000 als HTTP

  4. Füge den Befehl aus der obigen Compose-Datei in den Startbefehl ein

  5. Verbinde über den HTTP-Endpunkt, sobald der Health-Check bestanden ist

Tipps für Clore.ai-Bereitstellungen

Wahl der richtigen GPU

Budget
GPU
Tägliche Kosten
Beste Variante

Minimal

RTX 3090 (24 GB)

0,30 $ – 1,00 $

R1-Distill-Qwen-7B oder 14B Q4

Standard

RTX 4090 (24 GB)

0,50 $ – 2,00 $

R1-Distill-Qwen-14B FP16 oder 32B Q4

Produktion

A100 80 GB

3 $ – 8 $

R1-Distill-Qwen-32B FP16

Hohe Qualität

2× A100 80 GB

6 $ – 16 $

R1-Distill-Llama-70B FP16

Performance-Tuning

  • Temperature 0.6 ist die empfohlene Standardeinstellung für Reasoning-Aufgaben — DeepSeeks eigene Paper verwenden diesen Wert

  • Setze max_tokens großzügig — Reasoning-Modelle produzieren lange <think> Blöcke; 4096+ für nicht-triviale Probleme

  • Prefix-Caching aktivieren (--enable-prefix-caching in vLLM) bei Verwendung eines geteilten System-Prompts

  • Parallelität begrenzen (--max-num-seqs 16) für Reasoning-Workloads — jede Anfrage verwendet mehr Rechenleistung als ein Standard-Chat

  • Verwende Q4-Quantisierung um 32B auf eine einzelne 24-GB-GPU mit minimalem Qualitätsverlust zu packen (die Distillation komprimiert R1s Wissen bereits)

Überlegungen zur Kontextlänge

Reasoning-Modelle verbrauchen mehr Kontext als Standard-Chat-Modelle wegen des <think> Blocks:

Aufgabenkomplexität
Typische Denk-Länge
Benötigter Gesamtkontext

Einfache Arithmetik

~100 Tokens

~300 Tokens

Code-Generierung

~500–1000 Tokens

~2000 Tokens

Wettbewerbs-Mathematik (AIME)

~2000–4000 Tokens

~5000 Tokens

Mehrschrittige Forschungsanalyse

~4000–8000 Tokens

~10000 Tokens

Fehlerbehebung

Out of memory (OOM)

Modell erzeugt keinen <think> Block

Einige System-Prompts unterdrücken das Denken. Vermeide Anweisungen wie „sei knapp“ oder „erkläre deine Überlegungen nicht.“ Verwende ein minimales System-Prompt oder gar keines:

Wiederholende oder sich wiederholende <think> Ausgabe

Verringere die Temperature, um die Zufälligkeit in der Denk-Kette zu reduzieren:

Langsames erstes Token (hoher TTFT)

Das ist zu erwarten — das Modell erzeugt <think> Tokens vor der sichtbaren Antwort. Für latenzempfindliche Anwendungen, in denen kein Reasoning benötigt wird, verwende DeepSeek-V3 stattdessen.

Download stockt auf Clore-Instanz

HuggingFace-Downloads können bei einigen Anbietern langsam sein. Cache das Modell vorab in ein persistentes Volume:

Weiterführende Lektüre

Zuletzt aktualisiert

War das hilfreich?