DeepSeek V4 (1T MoE, Multimodal)

Despliega DeepSeek V4: el modelo multimodal de billones de parámetros con pesos abiertos, en servidores GPU de Clore.ai

circle-info

Estado (4 de marzo de 2026): El lanzamiento de DeepSeek V4 es inminente — se espera la primera semana de marzo de 2026. Esta guía cubre la configuración usando vLLM/Ollama una vez que los pesos se publiquen en HuggingFace. Consulta huggingface.co/deepseek-aiarrow-up-right para la última versión.

DeepSeek V4 es el modelo de pesos abiertos más esperado de principios de 2026 — un modelo MoE multimodal de ~1 billón de parámetros de DeepSeek AI, entrenado en los chips más recientes de NVIDIA y optimizado para hardware Huawei Ascend. Con ~32B de parámetros activos por token, ofrece rendimiento de vanguardia a una fracción del coste de cómputo.

Especificaciones clave

Propiedad
Valor

Parámetros totales

~1 billón (MoE)

Parámetros activos

~32B por paso hacia adelante

Ventana de contexto

1M tokens

Modalidades

Texto + Imagen + Video

Licencia

MIT esperado (como V3)

Benchmark

Se espera que lidere los rankings de código abierto

¿Por qué DeepSeek V4?

  • Modelo de pesos abiertos nº 1 — diseñado para superar a V3 y rivalizar con GPT-4.5/Claude Opus

  • Multimodal — maneja de forma nativa entradas de texto, imagen y video

  • Contexto de 1M — RAG para documentos largos, bases de código enteras en contexto

  • Licencia MIT — uso comercial permitido, sin restricciones

  • Eficiencia masiva — solo 32B de parámetros activos pese a 1T totales


Requisitos

Componente
Mínimo
Recomendado

VRAM de GPU

2× RTX 4090 (48GB) para Q4

4× A100 80GB para FP16

RAM

64GB

128GB

Disco

500GB (cuantizado)

2TB (FP16)

CUDA

12.4+

12.6+

circle-exclamation

Opción A — Cuantizado vía Ollama (más fácil, cuando esté disponible)

Ollama añadirá modelos DeepSeek V4 dentro de horas de que se publiquen los pesos.


Opción B — vLLM (API de producción, alto rendimiento)


Opción C — llama.cpp (CPU+GPU, cuantizado)


Recomendaciones de GPU en Clore.ai

Configuración
VRAM
Rendimiento esperado
Coste en Clore.ai

2× RTX 4090

48GB

Cuantizado Q4, ~15 tok/s

~$4–5/día

4× RTX 4090

96GB

Cuantizado Q5/Q8, ~25 tok/s

~$8–10/día

4× A100 80GB

320GB

Shardeo MoE en BF16, rápido

~$15–20/día

8× H100 80GB

640GB

FP16 completo, máxima velocidad

~$50+/día

circle-check

Reenvío de puertos en Clore.ai

Agrega estos a la configuración de puertos del contenedor en Clore.ai:

Puerto
Servicio

11434

API de Ollama

8000

API compatible con OpenAI de vLLM

8080

Servidor de llama.cpp / Open WebUI

3000

Interfaz de chat de Open WebUI


Consejos de rendimiento

  1. Usa la cuantización Q4_K_M para la mejor relación calidad/VRAM — aún supera a la mayoría de los modelos de 70B

  2. Habilita flash attention: añade --enable-chunked-prefill en vLLM para contextos largos

  3. Paralelismo tensorial: el --tensor-parallel-size N de vLLM a través de N GPUs es transparente

  4. Longitud de contexto: Comienza con 8192 ctx en 2× 4090, aumenta si la VRAM lo permite

  5. BF16 > FP16 para modelos MoE — menos pérdida de precisión en activaciones dispersas


Qué esperar

Basado en los patrones de DeepSeek V3 y benchmarks previos al lanzamiento:

  • Programación: Se espera rendimiento de primer nivel en SWE-bench (rivalizando con Claude 3.7 Sonnet)

  • Matemáticas/Razonamiento: Puntuaciones en MATH-500 y AIME por encima de todos los predecesores de peso abierto

  • Multimodal: Comprensión de imágenes y video comparable a GPT-4V

  • Contexto largo: Ventana de 1M tokens para análisis de bases de código completas


Enlaces

Última actualización

¿Te fue útil?