GLM-5
Despliega GLM-5 (744B MoE) de Zhipu AI en Clore.ai — acceso API y autohospedaje con vLLM
GLM-5, lanzado en febrero de 2026 por Zhipu AI (Z.AI), es un modelo de lenguaje de mezcla de expertos (Mixture-of-Experts) de 744 mil millones de parámetros que activa solo 40B parámetros por token. Logra un rendimiento de código abierto de primera clase en razonamiento, programación y tareas agentivas — obteniendo 77.8% en SWE-bench Verified y rivalizando con modelos de frontera como Claude Opus 4.5 y GPT-5.2. El modelo está disponible bajo el Licencia MIT en HuggingFace.
Características clave
744B total / 40B activos — MoE de 256 expertos con enrutamiento altamente eficiente
Rendimiento de vanguardia en programación — 77.8% SWE-bench Verified, 73.3% SWE-bench Multilingual
Razonamiento profundo — 92.7% en AIME 2026, 96.9% en HMMT Nov 2025, modo de pensamiento incorporado
Capacidades agente — llamadas a herramientas nativas, ejecución de funciones y planificación de tareas a largo plazo
Ventana de contexto de 200K+ — maneja bases de código masivas y documentos extensos
Licencia MIT — pesos totalmente abiertos, uso comercial permitido
Requisitos
Autoalojar GLM-5 es una empresa seria — el checkpoint FP8 requiere ~860GB de VRAM.
GPU
8× H100 80GB
8× H200 141GB
VRAM
640GB
1.128GB
RAM
256GB
512GB
Disco
1.5TB NVMe
2TB NVMe
CUDA
12.0+
12.4+
recomendación de Clore.ai: Para la mayoría de los usuarios, acceder a GLM-5 vía API (Z.AI, OpenRouter). Autoalojar solo tiene sentido si puedes alquilar 8× H100/H200 (~$24–48/día en Clore.ai).
Acceso por API (recomendado para la mayoría de los usuarios)
La forma más práctica de usar GLM-5 desde una máquina Clore.ai o desde cualquier lugar:
Vía la plataforma de Z.AI
Vía OpenRouter
Configuración de vLLM (autoalojamiento)
Para quienes tienen acceso a máquinas multi-GPU de alta gama en Clore.ai:
Servir FP8 en 8× GPUs H200
Consultar el servidor
Alternativa SGLang
SGLang también soporta GLM-5 y puede ofrecer mejor rendimiento en algún hardware:
Inicio rápido con Docker
Ejemplo de llamada a herramienta
GLM-5 tiene soporte nativo para llamadas a herramientas — ideal para construir aplicaciones agentivas:
Consejos para usuarios de Clore.ai
API primero, autoalojamiento después: GLM-5 requiere 8× H200 (~$24–48/día en Clore.ai). Para uso ocasional, la API de Z.AI o OpenRouter es mucho más rentable. Autoalojar solo si necesitas rendimiento sostenido o privacidad de datos.
Considera GLM-4.7 en su lugar: Si 8× H200 es demasiado, el predecesor GLM-4.7 (355B, 32B activos) funciona en 4× H200 o 4× H100 (~$12–24/día) y aún ofrece un rendimiento excelente.
Usa pesos FP8: Usa siempre
zai-org/GLM-5-FP8— misma calidad que BF16 pero con casi la mitad del consumo de memoria. La versión BF16 requiere 16× GPUs.Monitorea el uso de VRAM:
watch nvidia-smi— las consultas de contexto largo pueden aumentar picos de memoria. Ajusta--gpu-memory-utilization 0.85para dejar margen.Compensación del modo de pensamiento: El modo de pensamiento produce mejores resultados para tareas complejas pero usa más tokens y tiempo. Desactívalo para consultas simples con
enable_thinking: false.
Solución de problemas
OutOfMemoryError al iniciar
Asegúrate de tener 8× H200 (141GB cada una). FP8 necesita ~860GB de VRAM en total.
Descargas lentas (~800GB)
Usa huggingface-cli download zai-org/GLM-5-FP8 con --local-dir para reanudar.
Incompatibilidad de versión de vLLM
GLM-5 requiere la versión nightly de vLLM. Instala vía pip install -U vllm --pre.
Llamadas a herramientas no funcionan
Agregar --tool-call-parser glm47 --enable-auto-tool-choice para el comando serve.
Errores DeepGEMM
Instala DeepGEMM para FP8: usa el install_deepgemm.sh script del repositorio de vLLM.
Modo de pensamiento produce salida vacía
Establecer temperature=1.0 — el modo de pensamiento requiere temperatura distinta de cero.
Lecturas adicionales
Última actualización
¿Te fue útil?