GLM-5

Despliega GLM-5 (744B MoE) de Zhipu AI en Clore.ai — acceso API y autohospedaje con vLLM

GLM-5, lanzado en febrero de 2026 por Zhipu AI (Z.AI), es un modelo de lenguaje de mezcla de expertos (Mixture-of-Experts) de 744 mil millones de parámetros que activa solo 40B parámetros por token. Logra un rendimiento de código abierto de primera clase en razonamiento, programación y tareas agentivas — obteniendo 77.8% en SWE-bench Verified y rivalizando con modelos de frontera como Claude Opus 4.5 y GPT-5.2. El modelo está disponible bajo el Licencia MIT en HuggingFace.

Características clave

  • 744B total / 40B activos — MoE de 256 expertos con enrutamiento altamente eficiente

  • Rendimiento de vanguardia en programación — 77.8% SWE-bench Verified, 73.3% SWE-bench Multilingual

  • Razonamiento profundo — 92.7% en AIME 2026, 96.9% en HMMT Nov 2025, modo de pensamiento incorporado

  • Capacidades agente — llamadas a herramientas nativas, ejecución de funciones y planificación de tareas a largo plazo

  • Ventana de contexto de 200K+ — maneja bases de código masivas y documentos extensos

  • Licencia MIT — pesos totalmente abiertos, uso comercial permitido

Requisitos

Autoalojar GLM-5 es una empresa seria — el checkpoint FP8 requiere ~860GB de VRAM.

Componente
Mínimo (FP8)
Recomendado

GPU

8× H100 80GB

8× H200 141GB

VRAM

640GB

1.128GB

RAM

256GB

512GB

Disco

1.5TB NVMe

2TB NVMe

CUDA

12.0+

12.4+

recomendación de Clore.ai: Para la mayoría de los usuarios, acceder a GLM-5 vía API (Z.AI, OpenRouter). Autoalojar solo tiene sentido si puedes alquilar 8× H100/H200 (~$24–48/día en Clore.ai).

Acceso por API (recomendado para la mayoría de los usuarios)

La forma más práctica de usar GLM-5 desde una máquina Clore.ai o desde cualquier lugar:

Vía la plataforma de Z.AI

Vía OpenRouter

Configuración de vLLM (autoalojamiento)

Para quienes tienen acceso a máquinas multi-GPU de alta gama en Clore.ai:

Servir FP8 en 8× GPUs H200

Consultar el servidor

Alternativa SGLang

SGLang también soporta GLM-5 y puede ofrecer mejor rendimiento en algún hardware:

Inicio rápido con Docker

Ejemplo de llamada a herramienta

GLM-5 tiene soporte nativo para llamadas a herramientas — ideal para construir aplicaciones agentivas:

Consejos para usuarios de Clore.ai

  • API primero, autoalojamiento después: GLM-5 requiere 8× H200 (~$24–48/día en Clore.ai). Para uso ocasional, la API de Z.AI o OpenRouter es mucho más rentable. Autoalojar solo si necesitas rendimiento sostenido o privacidad de datos.

  • Considera GLM-4.7 en su lugar: Si 8× H200 es demasiado, el predecesor GLM-4.7 (355B, 32B activos) funciona en 4× H200 o 4× H100 (~$12–24/día) y aún ofrece un rendimiento excelente.

  • Usa pesos FP8: Usa siempre zai-org/GLM-5-FP8 — misma calidad que BF16 pero con casi la mitad del consumo de memoria. La versión BF16 requiere 16× GPUs.

  • Monitorea el uso de VRAM: watch nvidia-smi — las consultas de contexto largo pueden aumentar picos de memoria. Ajusta --gpu-memory-utilization 0.85 para dejar margen.

  • Compensación del modo de pensamiento: El modo de pensamiento produce mejores resultados para tareas complejas pero usa más tokens y tiempo. Desactívalo para consultas simples con enable_thinking: false.

Solución de problemas

Problema
Solución

OutOfMemoryError al iniciar

Asegúrate de tener 8× H200 (141GB cada una). FP8 necesita ~860GB de VRAM en total.

Descargas lentas (~800GB)

Usa huggingface-cli download zai-org/GLM-5-FP8 con --local-dir para reanudar.

Incompatibilidad de versión de vLLM

GLM-5 requiere la versión nightly de vLLM. Instala vía pip install -U vllm --pre.

Llamadas a herramientas no funcionan

Agregar --tool-call-parser glm47 --enable-auto-tool-choice para el comando serve.

Errores DeepGEMM

Instala DeepGEMM para FP8: usa el install_deepgemm.sh script del repositorio de vLLM.

Modo de pensamiento produce salida vacía

Establecer temperature=1.0 — el modo de pensamiento requiere temperatura distinta de cero.

Lecturas adicionales

Última actualización

¿Te fue útil?