Modelo de Razonamiento DeepSeek-R1
Ejecuta el modelo de razonamiento de código abierto DeepSeek-R1 en GPUs de Clore.ai
Resumen
Características clave
Variantes de modelo
Variante
Parámetros
Arquitectura
VRAM FP16
VRAM Q4
Q4 Disco
Elegir una variante
Caso de uso
Variante recomendada
GPU en Clore
Repositorios de HuggingFace
Variante
Repositorio
Requisitos
Componente
Mínimo (7B Q4)
Recomendado (32B Q4)
Inicio rápido con Ollama
Instalar y ejecutar
Ejemplo de sesión interactiva
Usa la API compatible con OpenAI
Cliente Python (vía OpenAI SDK)
Configuración de producción vLLM
GPU única — 7B / 14B
Multi-GPU — 32B (recomendado)
Multi-GPU — 70B
Consulta el endpoint de vLLM
Transformers / Python (con <think> Tag Parsing)
<think> Tag Parsing)Generación básica
Análisis (parsing) <think> etiquetas
<think> etiquetasTransmisión con <think> seguimiento de estado
<think> seguimiento de estadoDespliegue Docker en Clore.ai
Ollama Docker (el más simple)
vLLM Docker (producción)
Consejos para despliegues en Clore.ai
Elegir la GPU adecuada
Económico
GPU
Costo diario
Mejor variante
Afinación de rendimiento
Consideraciones sobre la longitud del contexto
Complejidad de la tarea
Longitud típica del pensamiento
Contexto total necesario
Solución de problemas
Fuera de memoria (OOM)
El modelo no produce <think> bloque
<think> bloqueSalida repetitiva o en bucle <think> salida
<think> salidaPrimer token lento (alto TTFT)
La descarga se detiene en la instancia Clore
Lecturas adicionales
Última actualización
¿Te fue útil?