Ling-2.5-1T (1 триллион параметров)
Запускайте Ling-2.5-1T — открытый LLM Ant Group с триллионом параметров и гибридным линейным вниманием на GPU Clore.ai
Ling-2.5-1T от Ant Group (выпущена 16 февраля 2026 г.) — одна из крупнейших когда-либо выпущенных открытых языковых моделей — всего 1 триллион параметров, из которых 63B активны. Она вводит гибридную архитектуру линейного внимания, которая обеспечивает эффективный вывод при длинах контекста до 1 миллиона токенов. Вместе с ней Ant Group выпустила Ring-2.5-1T, первую в мире мыслительную модель с гибридной линейной архитектурой. В совокупности они представляют новый рубеж в открытом ИИ — конкурентоспособны с GPT-5.2, DeepSeek V3.2 и Kimi K2.5 по показателям рассуждения и агентских бенчмарках.
HuggingFace: inclusionAI/Ling-2.5-1T Сопутствующая модель: inclusionAI/Ring-2.5-1T (вариант для мышления/рассуждения) Лицензия: Открытый исходный код (Лицензия Ant Group InclusionAI)
Ключевые особенности
всего 1 триллион параметров, 63B активных — огромный масштаб с эффективной активацией в стиле MoE
Гибридное линейное внимание — сочетает MLA (многоголовое линейное внимание) с Lightning Linear Attention для исключительной пропускной способности на длинных последовательностях
Окно контекста 1M токенов — через расширение YaRN от нативных 256K, обрабатывает целые кодовые базы и документы длиной с книгу
Передовое рассуждение — приближается к производительности мыслительной модели, используя примерно в 4× меньше выходных токенов
Агентные возможности — обучена с Agentic RL, совместима с Claude Code, OpenCode и OpenClaw
Сопутствующий Ring-2.5-1T — специальный вариант для рассуждений достигает уровня золотой медали IMO 2025 и CMO 2025
Детали архитектуры
Всего параметров
1T (1 000B)
Активные параметры
63B
Архитектура
Гибридное линейное внимание (MLA + Lightning Linear)
Данные для предобучения
29T токенов
Нативный контекст
256K токенов
Расширенный контекст
1M токенов (YaRN)
Дата выпуска
16 февраля 2026 г.
Требования
Запуск Ling-2.5-1T в полную точность требует значительных ресурсов. Квантованные версии делают её более доступной.
GPU
8× RTX 4090
8× H100 80GB
16× H100 80GB
VRAM
8×24GB (192GB)
8×80GB (640GB)
16×80GB (1.28TB)
ОЗУ
256GB
512GB
1TB
Диск
600GB
1.2TB
2TB+
CUDA
12.0+
12.0+
12.0+
Рекомендуемая настройка Clore.ai:
Квантованная (Q4): 8× RTX 4090 (~$4–16/день) — подходит для экспериментов и умеренных нагрузок
Продакшен (FP8): 8× H100 (~$24–48/день) — полное качество с хорошей пропускной способностью
Примечание: Это чрезвычайно большая модель. Для пользователей с ограниченным бюджетом рассмотрите более мелкие модели семейства Ling на HuggingFace.
Быстрый старт с vLLM
vLLM — рекомендуемая система обслуживания для Ling-2.5-1T:
Быстрый старт с llama.cpp (квантованная)
Для конфигураций с потребительскими GPU доступны GGUF-квантования:
Примеры использования
1. Завершение чата через OpenAI API
После запуска vLLM или llama-server:
2. Анализ документов с длинным контекстом
Гибридное линейное внимание Ling-2.5-1T делает её исключительно эффективной для длинных документов:
3. Агентское использование инструментов
Ling-2.5-1T обучена с Agentic RL для вызова инструментов:
Ling-2.5-1T против Ring-2.5-1T
Тип
Модель мгновенного (быстрого) ответа
Модель для мышления (рассуждений)
Архитектура
Гибридное линейное внимание
Гибридное линейное внимание
Лучше всего для
Общий чат, кодирование, агентские задачи
Математика, формальные рассуждения, сложные задачи
Стиль вывода
Прямые ответы
Последовательные рассуждения (chain-of-thought)
Эффективность по токенам
Высокая (меньше выходных токенов)
Использует больше токенов для рассуждений
IMO 2025
Конкурентоспособно
Уровень золотой медали
Советы для пользователей Clore.ai
Эта модель требует серьёзного оборудования — При 1T параметров даже квантование Q4 требует ~500GB дискового пространства и 192GB+ видеопамяти. Убедитесь, что ваш экземпляр Clore.ai имеет достаточный диск и мульти-GPU перед загрузкой.
Начните с
--max-model-len 8192— При первичном тестировании используйте короткий контекст, чтобы убедиться, что модель загружается и работает корректно. Увеличивайте длину контекста после проверки.Используйте постоянное хранилище — Модель занимает 1–2TB. Подключите большой постоянный том в Clore.ai, чтобы избежать повторной загрузки. Скачайте один раз с помощью
huggingface-cli download.Рассмотрите Ring-2.5-1T для задач рассуждения — Если ваш кейс в основном касается математики, логики или формальных рассуждений, сопутствующая модель Ring-2.5-1T специально оптимизирована для последовательных рассуждений.
Мониторьте память GPU — Для конфигураций с 8 GPU используйте
nvidia-smi -l 1чтобы отслеживать использование памяти и следить за OOM во время генерации с длинными контекстами.
Устранение неполадок
CUDA — недостаточно памяти
Уменьшите --max-model-len; убедитесь, --tensor-parallel-size соответствует числу GPU; попробуйте --gpu-memory-utilization 0.95
Очень медленная генерация
Линейному вниманию нужен разогрев; первые запросы могут быть медленными. Также проверьте наличие NVLink между GPU
Сбой загрузки модели
Модель занимает ~2TB в BF16. Убедитесь в наличии достаточного дискового пространства. Используйте --resume-download флаг с huggingface-cli
vLLM не поддерживает архитектуру
Убедитесь, что вы используете vLLM ≥0.7.0 с --trust-remote-code; пользовательские слои внимания требуют этого флага
GGUF недоступен
Проверьте unsloth или сообщественные квантования; модель может потребовать времени, пока сообщество её квантирует
Плохое качество ответов
Используйте temperature ≤0.1 для фактических задач; добавьте системный промпт; убедитесь, что вы не обрезаете контекст
Дополнительное чтение
Официальное объявление (BusinessWire) — детали релиза и бенчмарки
HuggingFace — Ling-2.5-1T — веса модели и документация
HuggingFace — Ring-2.5-1T — сопутствующая мыслительная модель
Зеркало ModelScope — более быстрые загрузки в Азии
Документация vLLM — фреймворк для обслуживания
Последнее обновление
Это было полезно?