Модель рассуждения DeepSeek-R1

Запускайте открытую модель рассуждения DeepSeek-R1 на GPU Clore.ai

circle-check

Обзор

DeepSeek-R1 — открытая модель рассуждения с 671 млрд параметров, выпущенная в январе 2025 года DeepSeek под Apache 2.0 лицензией. Это первая открытая модель, достигшая уровня OpenAI o1 по математическим, кодировочным и научным бенчмаркам — при этом она открывает всю цепочку рассуждений через явные <think> теги.

Полная модель использует смесь экспертов (Mixture-of-Experts, MoE) с 37 млрд активных параметров на токен, что делает вывод вычислимо несмотря на заявленное общее количество параметров. Для большинства практиков дистиллированные варианты (1.5B → 70B) более практичны: они наследуют шаблоны рассуждений R1 через дистилляцию знаний в базовые архитектуры Qwen-2.5 и Llama-3 и работают на обычных GPU.

Ключевые особенности

  • Явная цепочка рассуждений — каждый ответ начинается с <think> блока, где модель рассуждает, отступает назад и самокорректируется, прежде чем дать окончательный ответ

  • Обучение через подкрепление — способность рассуждать возникает из сигналов вознаграждения RL, а не из вручную составленных данных цепочек рассуждений

  • Шесть дистиллированных вариантов — модели на 1.5B, 7B, 8B, 14B, 32B, 70B параметров, дистиллированные из полного 671B в архитектуры Qwen и Llama

  • Лицензия Apache 2.0 — полностью коммерческое использование, без роялти, без ограничений на использование

  • Широкая поддержка фреймворков — Ollama, vLLM, llama.cpp, SGLang, Transformers, TGI работают из коробки

  • AIME 2024 Pass@1: 79.8% — сравнялась с OpenAI o1 в соревновательной математике

  • Elo на Codeforces 2029 — превосходит 1891 у o1 в соревновательном программировании

Варианты моделей

Вариант
Параметры
Архитектура
FP16 VRAM
Q4 VRAM
Q4 на диске

DeepSeek-R1 (полный MoE)

671B (37B активных)

DeepSeek MoE

~1.3 ТБ

~350 ГБ

~340 ГБ

R1-Distill-Llama-70B

70B

Llama 3

140 ГБ

40 ГБ

42 ГБ

R1-Distill-Qwen-32B

32B

Qwen 2.5

64 ГБ

22 ГБ

20 ГБ

R1-Distill-Qwen-14B

14B

Qwen 2.5

28 ГБ

10 ГБ

9 ГБ

R1-Distill-Llama-8B

8B

Llama 3

16 ГБ

6 GB

5.5 ГБ

R1-Distill-Qwen-7B

7B

Qwen 2.5

14 ГБ

5 ГБ

4.5 ГБ

R1-Distill-Qwen-1.5B

1.5B

Qwen 2.5

3 ГБ

2 GB

1.2 ГБ

Выбор варианта

Случай использования
Рекомендуемый вариант
GPU на Clore

Быстрые эксперименты, тестирование на периферии

R1-Distill-Qwen-1.5B

Любой GPU

Развертывание при ограниченном бюджете, быстрый вывод

R1-Distill-Qwen-7B

RTX 3090 (~$0.30–1/день)

Оптимальное решение для продакшна на одном GPU

R1-Distill-Qwen-14B Q4

RTX 4090 (~$0.50–2/день)

Лучшее соотношение качества и цены (рекомендуется)

R1-Distill-Qwen-32B Q4

RTX 4090 24 ГБ или A100 40 ГБ

Максимальное качество среди дистиллятов

R1-Distill-Llama-70B

2× A100 80 ГБ

Исследования, рассуждения в полном качестве

DeepSeek-R1 671B

кластер из 8× H100

Репозитории на HuggingFace

Требования

Компонент
Минимум (7B Q4)
Рекомендуется (32B Q4)

VRAM GPU

6 GB

24 ГБ

ОЗУ системы

16 ГБ

32 ГБ

Диск

10 ГБ

30 GB

CUDA

12.1+

12.4+

Docker

24.0+

25.0+

Быстрый старт с Ollama

Ollama автоматически обрабатывает квантизацию, загрузку и обслуживание — самый быстрый путь к запуску DeepSeek-R1.

Установка и запуск

Пример интерактивной сессии

Используйте API совместимый с OpenAI

Клиент Python (через OpenAI SDK)

Настройка vLLM для продакшна

vLLM обеспечивает наивысшую пропускную способность для многопользовательского сервинга с непрерывной пакетизацией, PagedAttention и кэшированием префиксов.

Один GPU — 7B / 14B

Мульти-GPU — 32B (рекомендуется)

Подсказка: Контрольная точка 32B Q4 GPTQ или AWQ помещается на одном RTX 4090 (24 ГБ):

Мульти-GPU — 70B

Запрос к vLLM endpoint

Transformers / Python (с <think> разбором тегов)

Используйте HuggingFace Transformers, когда вам нужен тонкий контроль над генерацией или вы хотите интегрировать R1 в Python-пайплайн.

Базовая генерация

Парсинг <think> тегов

Потоковая передача с <think> отслеживанием состояния

Развёртывание в Docker на Clore.ai

Ollama Docker (самый простой)

Docker-образ: ollama/ollama Порты: 22/tcp, 11434/http

vLLM Docker (для продакшна)

Docker-образ: vllm/vllm-openai:latest Порты: 22/tcp, 8000/http

Развернуть на Clore.ai:

  1. Фильтровать по 2× GPU, в сумме 48 ГБ+ VRAM (например, 2× RTX 4090 или A100 80 ГБ)

  2. Установите Docker-образ на vllm/vllm-openai:latest

  3. Смаппить порт 8000 как HTTP

  4. Вставьте команду из файла compose выше в команду запуска

  5. Подключитесь через HTTP-эндпоинт после прохождения health check

Советы по развертыванию на Clore.ai

Выбор подходящего GPU

Бюджетная
GPU
Дневная стоимость
Лучший вариант

Минимальная

RTX 3090 (24 ГБ)

$0.30 – 1.00

R1-Distill-Qwen-7B или 14B Q4

Стандартный

RTX 4090 (24 ГБ)

$0.50 – 2.00

R1-Distill-Qwen-14B FP16 или 32B Q4

Продакшн

A100 80 GB

$3 – 8

R1-Distill-Qwen-32B FP16

Высокое качество

2× A100 80 ГБ

$6 – 16

R1-Distill-Llama-70B FP16

Тонкая настройка производительности

  • Температура 0.6 — рекомендуется по умолчанию для задач рассуждения — в работах DeepSeek используется именно это значение

  • Установите max_tokens щедро — модели рассуждений генерируют длинные <think> блоки; 4096+ для нетривиальных задач

  • Включите кэширование префиксов (--enable-prefix-caching в vLLM) при использовании общего системного промпта

  • Ограничьте параллелизм (--max-num-seqs 16) для рабочих нагрузок рассуждений — каждый запрос использует больше вычислений, чем стандартный чат

  • Используйте квантизацию Q4 чтобы поместить 32B на один 24 ГБ GPU с минимальной потерей качества (дистилл уже сжимает знания R1)

Особенности длины контекста

Модели рассуждений потребляют больше контекста, чем стандартные чат-модели, из-за <think> блока:

Сложность задачи
Типичная длина рассуждений
Общий необходимый контекст

Простая арифметика

~100 токенов

~300 токенов

Генерация кода

~500–1000 токенов

~2000 токенов

Соревновательная математика (AIME)

~2000–4000 токенов

~5000 токенов

Многоступенчатый исследовательский анализ

~4000–8000 токенов

~10000 токенов

Устранение неполадок

Недостаток памяти (OOM)

Модель не выдаёт <think> блок

Некоторые системные промпты подавляют размышления. Избегайте инструкций вроде «будь кратким» или «не объясняй свои рассуждения». Используйте минимальный системный промпт или вовсе не указывайте его:

Повторяющийся или зацикленный <think> вывод

Понизьте температуру, чтобы уменьшить случайность в цепочке рассуждений:

Медленный первый токен (высокий TTFT)

Это ожидаемо — модель генерирует <think> токены перед видимым ответом. Для приложений, чувствительных к задержке, где рассуждения не нужны, используйте DeepSeek-V3 вместо этого.

Загрузка застревает на инстансе Clore

Загрузки с HuggingFace могут быть медленными у некоторых провайдеров. Предзагрузите модель в постоянный том:

Дополнительное чтение

Последнее обновление

Это было полезно?