GLM-5

Разверните GLM-5 (744B MoE) от Zhipu AI на Clore.ai — доступ через API и самохостинг с vLLM

GLM-5, выпущенная в феврале 2026 года компанией Zhipu AI (Z.AI), — это смешанная экспертная модель (Mixture-of-Experts) с 744 миллиардами параметров языковая модель, активирующая только 40 миллиардов параметров на токен. Она достигает лучшего в классе открытого исходного кода результата в задачах рассуждения, программирования и агентности — набирая 77,8% в SWE-bench Verified и конкурируя с передовыми моделями, такими как Claude Opus 4.5 и GPT-5.2. Модель доступна под Лицензия MIT на HuggingFace.

Ключевые особенности

  • 744B всего / 40B активно — 256-экспертный MoE с высокоэффективной маршрутизацией

  • Лидерские показатели в программировании — 77,8% в SWE-bench Verified, 73,3% в SWE-bench Multilingual

  • Глубокое рассуждение — 92,7% на AIME 2026, 96,9% на HMMT ноябрь 2025, встроенный режим мышления

  • Агентные возможности — родной вызов инструментов, исполнение функций и планирование задач на длительный горизонт

  • Окно контекста 200K+ — обрабатывает массивные кодовые базы и длинные документы

  • Лицензия MIT — полностью открытые веса, коммерческое использование разрешено

Требования

Самостоятельный хостинг GLM-5 — серьёзное предприятие — контрольная точка FP8 требует ~860 ГБ видеопамяти.

Компонент
Минимум (FP8)
Рекомендуется

GPU

8× H100 80GB

8× H200 141GB

VRAM

640GB

1,128GB

ОЗУ

256GB

512GB

Диск

1,5 ТБ NVMe

2 ТБ NVMe

CUDA

12.0+

12.4+

Рекомендация Clore.ai: Для большинства пользователей, доступ к GLM-5 через API (Z.AI, OpenRouter). Самостоятельный хостинг имеет смысл только если вы можете арендовать 8× H100/H200 (~$24–48/день на Clore.ai).

Доступ по API (рекомендуется для большинства пользователей)

Наиболее практичный способ использовать GLM-5 с машины Clore.ai или из любой точки:

Через платформу Z.AI

Через OpenRouter

Настройка vLLM (самостоятельный хостинг)

Для тех, у кого есть доступ к мощным многопроцессорным машинам на Clore.ai:

Развернуть FP8 на 8× H200 GPU

Запрос к серверу

Альтернатива SGLang

SGLang также поддерживает GLM-5 и может предложить лучшую производительность на некотором оборудовании:

Быстрый старт с Docker

Пример вызова инструментов

GLM-5 имеет встроенную поддержку вызова инструментов — идеально подходит для создания агентных приложений:

Советы для пользователей Clore.ai

  • API в первую очередь, самохостинг во вторую: GLM-5 требует 8× H200 (~$24–48/день на Clore.ai). Для эпизодического использования API Z.AI или OpenRouter гораздо более рентабелен. Самохостинг только если вам нужна постоянная пропускная способность или конфиденциальность данных.

  • Рассмотрите GLM-4.7 вместо неё: Если 8× H200 — это слишком много, предшественник GLM-4.7 (355B, 32B активно) работает на 4× H200 или 4× H100 (~$12–24/день) и по-прежнему обеспечивает отличную производительность.

  • Используйте веса FP8: Всегда используйте zai-org/GLM-5-FP8 — такое же качество, как BF16, но почти вдвое меньший объём памяти. Версия BF16 требует 16× GPU.

  • Мониторьте использование VRAM: watch nvidia-smi — длинные запросы с контекстом могут вызвать всплески памяти. Установите --gpu-memory-utilization 0.85 чтобы оставить запас.

  • Компромисс режима мышления: Режим мышления даёт лучшие результаты для сложных задач, но использует больше токенов и времени. Отключите его для простых запросов с помощью enable_thinking: false.

Устранение неполадок

Проблема
Решение

OutOfMemoryError при запуске

Убедитесь, что у вас есть 8× H200 (по 141 ГБ каждая). FP8 требует примерно 860 ГБ общей видеопамяти.

Медленные загрузки (~800 ГБ)

Используйте huggingface-cli download zai-org/GLM-5-FP8 с --local-dir чтобы возобновить.

Несовпадение версии vLLM

GLM-5 требует vLLM nightly. Установите через pip install -U vllm --pre.

Вызовы инструментов не работают

Добавьте --tool-call-parser glm47 --enable-auto-tool-choice для команды serve.

Ошибки DeepGEMM

Установите DeepGEMM для FP8: используйте скрипт install_deepgemm.sh из репозитория vLLM.

Режим мышления возвращает пустой вывод

Установите temperature=1.0 — режим мышления требует ненулевой температуры.

Дополнительное чтение

Последнее обновление

Это было полезно?