DeepSeek-R1 Reasoning-Modell
Führen Sie das Open-Source-Reasoning-Modell DeepSeek-R1 auf Clore.ai GPUs aus
Überblick
Hauptmerkmale
Modellvarianten
Variante
Parameter
Architektur
FP16 VRAM
Q4 VRAM
Q4 Festplatte
Wahl einer Variante
Einsatzgebiet
Empfohlene Variante
GPU auf Clore
HuggingFace-Repositories
Variante
Repository
Anforderungen
Komponente
Minimum (7B Q4)
Empfohlen (32B Q4)
Ollama Quick Start
Installieren und ausführen
Beispiel einer interaktiven Sitzung
Verwende die OpenAI-kompatible API
Python-Client (via OpenAI SDK)
vLLM Produktions-Setup
Single GPU — 7B / 14B
Multi-GPU — 32B (empfohlen)
Multi-GPU — 70B
Frage den vLLM-Endpunkt ab
Transformers / Python (mit <think> Tag-Parsing)
<think> Tag-Parsing)Basisgenerierung
Parsing <think> Tags
<think> TagsStreaming mit <think> Statusverfolgung
<think> StatusverfolgungDocker-Bereitstellung auf Clore.ai
Ollama Docker (einfachste Lösung)
vLLM Docker (Produktion)
Tipps für Clore.ai-Bereitstellungen
Wahl der richtigen GPU
Budget
GPU
Tägliche Kosten
Beste Variante
Performance-Tuning
Überlegungen zur Kontextlänge
Aufgabenkomplexität
Typische Denk-Länge
Benötigter Gesamtkontext
Fehlerbehebung
Out of memory (OOM)
Modell erzeugt keinen <think> Block
<think> BlockWiederholende oder sich wiederholende <think> Ausgabe
<think> AusgabeLangsames erstes Token (hoher TTFT)
Download stockt auf Clore-Instanz
Weiterführende Lektüre
Zuletzt aktualisiert
War das hilfreich?