DeepSeek-R1 推理模型
在 Clore.ai GPU 上运行 DeepSeek-R1 开源推理模型
概览
主要特性
1024x1024
变体
参数量
架构
FP16 显存
Q4 显存
Q4 磁盘
选择变体
模型变体
推荐变体
Clore 上的 GPU
HuggingFace 仓库
变体
仓库
要求
组件
最低(7B Q4)
推荐(32B Q4)
Ollama 快速入门
安装并运行
示例交互会话
使用与 OpenAI 兼容的 API
Python 客户端(通过 OpenAI SDK)
vLLM 生产部署
单 GPU — 7B / 14B
多 GPU — 32B(推荐)
多 GPU — 70B
查询 vLLM 端点
Transformers / Python(带有 <think> 标签解析)
<think> 标签解析)基本生成
解析 <think> 标签
<think> 标签使用流式(streaming)和 <think> 状态跟踪
<think> 状态跟踪在 Clore.ai 上的 Docker 部署
Ollama Docker(最简单)
vLLM Docker(生产)
Clore.ai 部署提示
选择合适的 GPU
预算型
GPU
每日费用
最佳变体
性能调优
上下文长度注意事项
任务复杂度
典型思考长度
所需总上下文
# 使用固定种子以获得一致结果
内存不足(OOM)
模型未生成任何 <think> 块
<think> 块重复或循环的 <think> 输出
<think> 输出第一个标记慢(高 TTFT)
在 Clore 实例上下载停滞
延伸阅读
最后更新于
这有帮助吗?