GLM-5
Разверните GLM-5 (744B MoE) от Zhipu AI на Clore.ai — доступ через API и самохостинг с vLLM
GLM-5, выпущенная в феврале 2026 года компанией Zhipu AI (Z.AI), — это смешанная экспертная модель (Mixture-of-Experts) с 744 миллиардами параметров языковая модель, активирующая только 40 миллиардов параметров на токен. Она достигает лучшего в классе открытого исходного кода результата в задачах рассуждения, программирования и агентности — набирая 77,8% в SWE-bench Verified и конкурируя с передовыми моделями, такими как Claude Opus 4.5 и GPT-5.2. Модель доступна под Лицензия MIT на HuggingFace.
Ключевые особенности
744B всего / 40B активно — 256-экспертный MoE с высокоэффективной маршрутизацией
Лидерские показатели в программировании — 77,8% в SWE-bench Verified, 73,3% в SWE-bench Multilingual
Глубокое рассуждение — 92,7% на AIME 2026, 96,9% на HMMT ноябрь 2025, встроенный режим мышления
Агентные возможности — родной вызов инструментов, исполнение функций и планирование задач на длительный горизонт
Окно контекста 200K+ — обрабатывает массивные кодовые базы и длинные документы
Лицензия MIT — полностью открытые веса, коммерческое использование разрешено
Требования
Самостоятельный хостинг GLM-5 — серьёзное предприятие — контрольная точка FP8 требует ~860 ГБ видеопамяти.
GPU
8× H100 80GB
8× H200 141GB
VRAM
640GB
1,128GB
ОЗУ
256GB
512GB
Диск
1,5 ТБ NVMe
2 ТБ NVMe
CUDA
12.0+
12.4+
Рекомендация Clore.ai: Для большинства пользователей, доступ к GLM-5 через API (Z.AI, OpenRouter). Самостоятельный хостинг имеет смысл только если вы можете арендовать 8× H100/H200 (~$24–48/день на Clore.ai).
Доступ по API (рекомендуется для большинства пользователей)
Наиболее практичный способ использовать GLM-5 с машины Clore.ai или из любой точки:
Через платформу Z.AI
Через OpenRouter
Настройка vLLM (самостоятельный хостинг)
Для тех, у кого есть доступ к мощным многопроцессорным машинам на Clore.ai:
Развернуть FP8 на 8× H200 GPU
Запрос к серверу
Альтернатива SGLang
SGLang также поддерживает GLM-5 и может предложить лучшую производительность на некотором оборудовании:
Быстрый старт с Docker
Пример вызова инструментов
GLM-5 имеет встроенную поддержку вызова инструментов — идеально подходит для создания агентных приложений:
Советы для пользователей Clore.ai
API в первую очередь, самохостинг во вторую: GLM-5 требует 8× H200 (~$24–48/день на Clore.ai). Для эпизодического использования API Z.AI или OpenRouter гораздо более рентабелен. Самохостинг только если вам нужна постоянная пропускная способность или конфиденциальность данных.
Рассмотрите GLM-4.7 вместо неё: Если 8× H200 — это слишком много, предшественник GLM-4.7 (355B, 32B активно) работает на 4× H200 или 4× H100 (~$12–24/день) и по-прежнему обеспечивает отличную производительность.
Используйте веса FP8: Всегда используйте
zai-org/GLM-5-FP8— такое же качество, как BF16, но почти вдвое меньший объём памяти. Версия BF16 требует 16× GPU.Мониторьте использование VRAM:
watch nvidia-smi— длинные запросы с контекстом могут вызвать всплески памяти. Установите--gpu-memory-utilization 0.85чтобы оставить запас.Компромисс режима мышления: Режим мышления даёт лучшие результаты для сложных задач, но использует больше токенов и времени. Отключите его для простых запросов с помощью
enable_thinking: false.
Устранение неполадок
OutOfMemoryError при запуске
Убедитесь, что у вас есть 8× H200 (по 141 ГБ каждая). FP8 требует примерно 860 ГБ общей видеопамяти.
Медленные загрузки (~800 ГБ)
Используйте huggingface-cli download zai-org/GLM-5-FP8 с --local-dir чтобы возобновить.
Несовпадение версии vLLM
GLM-5 требует vLLM nightly. Установите через pip install -U vllm --pre.
Вызовы инструментов не работают
Добавьте --tool-call-parser glm47 --enable-auto-tool-choice для команды serve.
Ошибки DeepGEMM
Установите DeepGEMM для FP8: используйте скрипт install_deepgemm.sh из репозитория vLLM.
Режим мышления возвращает пустой вывод
Установите temperature=1.0 — режим мышления требует ненулевой температуры.
Дополнительное чтение
Последнее обновление
Это было полезно?