Модель рассуждения DeepSeek-R1
Запускайте открытую модель рассуждения DeepSeek-R1 на GPU Clore.ai
Обзор
Ключевые особенности
Варианты моделей
Вариант
Параметры
Архитектура
FP16 VRAM
Q4 VRAM
Q4 на диске
Выбор варианта
Случай использования
Рекомендуемый вариант
GPU на Clore
Репозитории на HuggingFace
Вариант
Репозиторий
Требования
Компонент
Минимум (7B Q4)
Рекомендуется (32B Q4)
Быстрый старт с Ollama
Установка и запуск
Пример интерактивной сессии
Используйте API совместимый с OpenAI
Клиент Python (через OpenAI SDK)
Настройка vLLM для продакшна
Один GPU — 7B / 14B
Мульти-GPU — 32B (рекомендуется)
Мульти-GPU — 70B
Запрос к vLLM endpoint
Transformers / Python (с <think> разбором тегов)
<think> разбором тегов)Базовая генерация
Парсинг <think> тегов
<think> теговПотоковая передача с <think> отслеживанием состояния
<think> отслеживанием состоянияРазвёртывание в Docker на Clore.ai
Ollama Docker (самый простой)
vLLM Docker (для продакшна)
Советы по развертыванию на Clore.ai
Выбор подходящего GPU
Бюджетная
GPU
Дневная стоимость
Лучший вариант
Тонкая настройка производительности
Особенности длины контекста
Сложность задачи
Типичная длина рассуждений
Общий необходимый контекст
Устранение неполадок
Недостаток памяти (OOM)
Модель не выдаёт <think> блок
<think> блокПовторяющийся или зацикленный <think> вывод
<think> выводМедленный первый токен (высокий TTFT)
Загрузка застревает на инстансе Clore
Дополнительное чтение
Последнее обновление
Это было полезно?