Modelo de Razonamiento DeepSeek-R1

Ejecuta el modelo de razonamiento de código abierto DeepSeek-R1 en GPUs de Clore.ai

circle-check

Resumen

DeepSeek-R1 es un modelo de razonamiento de 671 mil millones de parámetros con pesos abiertos lanzado en enero de 2025 por DeepSeek bajo la Apache 2.0 licencia. Es el primer modelo abierto que iguala a OpenAI o1 en matemáticas, programación y benchmarks científicos, a la vez que expone toda su cadena de pensamiento mediante etiquetas explícitas <think> tags.

El modelo completo utiliza Mixture-of-Experts (MoE) con 37B parámetros activos por token, haciendo la inferencia manejable a pesar del recuento de parámetros anunciado. Para la mayoría de los practicantes, los variantes destiladas (1.5B → 70B) son más prácticas: heredan los patrones de razonamiento de R1 mediante destilación de conocimiento en arquitecturas base Qwen-2.5 y Llama-3 y se ejecutan en GPUs de consumo.

Características clave

  • Cadena de pensamiento explícita — cada respuesta comienza con un <think> bloque donde el modelo razona, retrocede y se autocorrige antes de producir una respuesta final

  • Entrenado con aprendizaje por refuerzo — la habilidad de razonar emerge de señales de recompensa de RL en lugar de datos de cadena de pensamiento escritos a mano

  • Seis variantes destiladas — modelos de 1.5B, 7B, 8B, 14B, 32B y 70B parámetros destilados del R1 completo de 671B a arquitecturas Qwen y Llama

  • Licencia Apache 2.0 — totalmente comercial, sin regalías, sin restricciones de uso

  • Amplio soporte de frameworks — Ollama, vLLM, llama.cpp, SGLang, Transformers, TGI funcionan inmediatamente

  • AIME 2024 Pass@1: 79.8% — empata con OpenAI o1 en matemáticas de competición

  • Elo Codeforces 2029 — supera el 1891 de o1 en programación competitiva

Variantes de modelo

Variante
Parámetros
Arquitectura
VRAM FP16
VRAM Q4
Q4 Disco

DeepSeek-R1 (MoE completo)

671B (37B activos)

DeepSeek MoE

~1.3 TB

~350 GB

~340 GB

R1-Distill-Llama-70B

70B

Llama 3

140 GB

40 GB

42 GB

R1-Distill-Qwen-32B

32B

Qwen 2.5

64 GB

22 GB

20 GB

R1-Distill-Qwen-14B

14B

Qwen 2.5

28 GB

10 GB

9 GB

R1-Distill-Llama-8B

8B

Llama 3

16 GB

6 GB

5.5 GB

R1-Distill-Qwen-7B

7B

Qwen 2.5

14 GB

5 GB

4.5 GB

R1-Distill-Qwen-1.5B

1.5B

Qwen 2.5

3 GB

2 GB

1.2 GB

Elegir una variante

Caso de uso
Variante recomendada
GPU en Clore

Experimentos rápidos, pruebas en el extremo

R1-Distill-Qwen-1.5B

Cualquier GPU

Despliegue con presupuesto, inferencia rápida

R1-Distill-Qwen-7B

RTX 3090 (~$0.30–1/día)

Punto óptimo de producción en una sola GPU

R1-Distill-Qwen-14B Q4

RTX 4090 (~$0.50–2/día)

Mejor calidad por dólar (recomendado)

R1-Distill-Qwen-32B Q4

RTX 4090 24 GB o A100 40 GB

Calidad destilada máxima

R1-Distill-Llama-70B

2× A100 80 GB

Investigación, razonamiento de fidelidad completa

DeepSeek-R1 671B

Clúster de 8× H100

Repositorios de HuggingFace

Requisitos

Componente
Mínimo (7B Q4)
Recomendado (32B Q4)

VRAM de GPU

6 GB

24 GB

RAM del sistema

16 GB

32 GB

Disco

10 GB

30 GB

CUDA

12.1+

12.4+

Docker

24.0+

25.0+

Inicio rápido con Ollama

Ollama maneja la cuantización, la descarga y el servicio automáticamente: el camino más rápido para poner a DeepSeek-R1 en funcionamiento.

Instalar y ejecutar

Ejemplo de sesión interactiva

Usa la API compatible con OpenAI

Cliente Python (vía OpenAI SDK)

Configuración de producción vLLM

vLLM ofrece el mayor rendimiento para servicio multiusuario con agrupamiento continuo, PagedAttention y caché de prefijos.

GPU única — 7B / 14B

Multi-GPU — 32B (recomendado)

Consejo: El checkpoint 32B Q4 GPTQ o AWQ cabe en una sola RTX 4090 (24 GB):

Multi-GPU — 70B

Consulta el endpoint de vLLM

Transformers / Python (con <think> Tag Parsing)

Usa HuggingFace Transformers cuando necesites control fino sobre la generación o quieras integrar R1 en una canalización Python.

Generación básica

Análisis (parsing) <think> etiquetas

Transmisión con <think> seguimiento de estado

Despliegue Docker en Clore.ai

Ollama Docker (el más simple)

Imagen Docker: ollama/ollama Puertos: 22/tcp, 11434/http

vLLM Docker (producción)

Imagen Docker: vllm/vllm-openai:latest Puertos: 22/tcp, 8000/http

Desplegar en Clore.ai:

  1. Filtrar por 2× GPU, 48 GB+ VRAM total (p. ej. 2× RTX 4090 o A100 80 GB)

  2. Establece la imagen Docker en vllm/vllm-openai:latest

  3. Mapear puerto 8000 como HTTP

  4. Pega el comando del archivo compose arriba en el comando de inicio

  5. Conéctate vía el endpoint HTTP una vez que la comprobación de salud pase

Consejos para despliegues en Clore.ai

Elegir la GPU adecuada

Económico
GPU
Costo diario
Mejor variante

Mínima

RTX 3090 (24 GB)

$0.30 – 1.00

R1-Distill-Qwen-7B o 14B Q4

Estándar

RTX 4090 (24 GB)

$0.50 – 2.00

R1-Distill-Qwen-14B FP16 o 32B Q4

Producción

A100 80 GB

$3 – 8

R1-Distill-Qwen-32B FP16

Alta calidad

2× A100 80 GB

$6 – 16

R1-Distill-Llama-70B FP16

Afinación de rendimiento

  • Temperatura 0.6 es el valor por defecto recomendado para tareas de razonamiento — los propios artículos de DeepSeek usan este valor

  • Establecer max_tokens generosamente — los modelos de razonamiento producen bloques largos; <think> 4096+ para problemas no triviales

  • Habilitar caché de prefijos (--enable-prefix-caching en vLLM) al usar un prompt de sistema compartido

  • Limitar la concurrencia (--max-num-seqs 16) para cargas de trabajo de razonamiento — cada solicitud usa más cómputo que un chat estándar

  • Usa cuantización Q4 para ajustar 32B en una sola GPU de 24 GB con pérdida mínima de calidad (la destilación ya comprime el conocimiento de R1)

Consideraciones sobre la longitud del contexto

Los modelos de razonamiento consumen más contexto que los modelos de chat estándar debido al <think> bloque:

Complejidad de la tarea
Longitud típica del pensamiento
Contexto total necesario

Aritmética simple

~100 tokens

~300 tokens

Generación de código

~500–1000 tokens

~2000 tokens

Matemáticas de competición (AIME)

~2000–4000 tokens

~5000 tokens

Análisis de investigación en varios pasos

~4000–8000 tokens

~10000 tokens

Solución de problemas

Fuera de memoria (OOM)

El modelo no produce <think> bloque

Algunos prompts de sistema suprimen el pensamiento. Evita instrucciones como "sé breve" o "no expliques tu razonamiento." Usa un prompt de sistema mínimo o ninguno:

Salida repetitiva o en bucle <think> salida

Reduce la temperatura para disminuir la aleatoriedad en la cadena de razonamiento:

Primer token lento (alto TTFT)

Esto es esperado — el modelo genera <think> tokens antes de la respuesta visible. Para aplicaciones sensibles a la latencia donde no se necesita razonamiento, usa DeepSeek-V3 en su lugar.

La descarga se detiene en la instancia Clore

Las descargas de HuggingFace pueden ser lentas en algunos proveedores. Pre-cachea el modelo en un volumen persistente:

Lecturas adicionales

Última actualización

¿Te fue útil?