Ling-2.5-1T (1 триллион параметров)

Запускайте Ling-2.5-1T — открытый LLM Ant Group с триллионом параметров и гибридным линейным вниманием на GPU Clore.ai

Ling-2.5-1T от Ant Group (выпущена 16 февраля 2026 г.) — одна из крупнейших когда-либо выпущенных открытых языковых моделей — всего 1 триллион параметров, из которых 63B активны. Она вводит гибридную архитектуру линейного внимания, которая обеспечивает эффективный вывод при длинах контекста до 1 миллиона токенов. Вместе с ней Ant Group выпустила Ring-2.5-1T, первую в мире мыслительную модель с гибридной линейной архитектурой. В совокупности они представляют новый рубеж в открытом ИИ — конкурентоспособны с GPT-5.2, DeepSeek V3.2 и Kimi K2.5 по показателям рассуждения и агентских бенчмарках.

HuggingFace: inclusionAI/Ling-2.5-1Tarrow-up-right Сопутствующая модель: inclusionAI/Ring-2.5-1Tarrow-up-right (вариант для мышления/рассуждения) Лицензия: Открытый исходный код (Лицензия Ant Group InclusionAI)

Ключевые особенности

  • всего 1 триллион параметров, 63B активных — огромный масштаб с эффективной активацией в стиле MoE

  • Гибридное линейное внимание — сочетает MLA (многоголовое линейное внимание) с Lightning Linear Attention для исключительной пропускной способности на длинных последовательностях

  • Окно контекста 1M токенов — через расширение YaRN от нативных 256K, обрабатывает целые кодовые базы и документы длиной с книгу

  • Передовое рассуждение — приближается к производительности мыслительной модели, используя примерно в 4× меньше выходных токенов

  • Агентные возможности — обучена с Agentic RL, совместима с Claude Code, OpenCode и OpenClaw

  • Сопутствующий Ring-2.5-1T — специальный вариант для рассуждений достигает уровня золотой медали IMO 2025 и CMO 2025

Детали архитектуры

Компонент
Детали

Всего параметров

1T (1 000B)

Активные параметры

63B

Архитектура

Гибридное линейное внимание (MLA + Lightning Linear)

Данные для предобучения

29T токенов

Нативный контекст

256K токенов

Расширенный контекст

1M токенов (YaRN)

Дата выпуска

16 февраля 2026 г.

Требования

Запуск Ling-2.5-1T в полную точность требует значительных ресурсов. Квантованные версии делают её более доступной.

Конфигурация
Квантованная (Q4 GGUF)
FP8
BF16 (полная)

GPU

8× RTX 4090

8× H100 80GB

16× H100 80GB

VRAM

8×24GB (192GB)

8×80GB (640GB)

16×80GB (1.28TB)

ОЗУ

256GB

512GB

1TB

Диск

600GB

1.2TB

2TB+

CUDA

12.0+

12.0+

12.0+

Рекомендуемая настройка Clore.ai:

  • Квантованная (Q4): 8× RTX 4090 (~$4–16/день) — подходит для экспериментов и умеренных нагрузок

  • Продакшен (FP8): 8× H100 (~$24–48/день) — полное качество с хорошей пропускной способностью

  • Примечание: Это чрезвычайно большая модель. Для пользователей с ограниченным бюджетом рассмотрите более мелкие модели семейства Ling на HuggingFacearrow-up-right.

Быстрый старт с vLLM

vLLM — рекомендуемая система обслуживания для Ling-2.5-1T:

Быстрый старт с llama.cpp (квантованная)

Для конфигураций с потребительскими GPU доступны GGUF-квантования:

Примеры использования

1. Завершение чата через OpenAI API

После запуска vLLM или llama-server:

2. Анализ документов с длинным контекстом

Гибридное линейное внимание Ling-2.5-1T делает её исключительно эффективной для длинных документов:

3. Агентское использование инструментов

Ling-2.5-1T обучена с Agentic RL для вызова инструментов:

Ling-2.5-1T против Ring-2.5-1T

Аспект
Ling-2.5-1T
Ring-2.5-1T

Тип

Модель мгновенного (быстрого) ответа

Модель для мышления (рассуждений)

Архитектура

Гибридное линейное внимание

Гибридное линейное внимание

Лучше всего для

Общий чат, кодирование, агентские задачи

Математика, формальные рассуждения, сложные задачи

Стиль вывода

Прямые ответы

Последовательные рассуждения (chain-of-thought)

Эффективность по токенам

Высокая (меньше выходных токенов)

Использует больше токенов для рассуждений

IMO 2025

Конкурентоспособно

Уровень золотой медали

Советы для пользователей Clore.ai

  1. Эта модель требует серьёзного оборудования — При 1T параметров даже квантование Q4 требует ~500GB дискового пространства и 192GB+ видеопамяти. Убедитесь, что ваш экземпляр Clore.ai имеет достаточный диск и мульти-GPU перед загрузкой.

  2. Начните с --max-model-len 8192 — При первичном тестировании используйте короткий контекст, чтобы убедиться, что модель загружается и работает корректно. Увеличивайте длину контекста после проверки.

  3. Используйте постоянное хранилище — Модель занимает 1–2TB. Подключите большой постоянный том в Clore.ai, чтобы избежать повторной загрузки. Скачайте один раз с помощью huggingface-cli download.

  4. Рассмотрите Ring-2.5-1T для задач рассуждения — Если ваш кейс в основном касается математики, логики или формальных рассуждений, сопутствующая модель Ring-2.5-1T специально оптимизирована для последовательных рассуждений.

  5. Мониторьте память GPU — Для конфигураций с 8 GPU используйте nvidia-smi -l 1 чтобы отслеживать использование памяти и следить за OOM во время генерации с длинными контекстами.

Устранение неполадок

Проблема
Решение

CUDA — недостаточно памяти

Уменьшите --max-model-len; убедитесь, --tensor-parallel-size соответствует числу GPU; попробуйте --gpu-memory-utilization 0.95

Очень медленная генерация

Линейному вниманию нужен разогрев; первые запросы могут быть медленными. Также проверьте наличие NVLink между GPU

Сбой загрузки модели

Модель занимает ~2TB в BF16. Убедитесь в наличии достаточного дискового пространства. Используйте --resume-download флаг с huggingface-cli

vLLM не поддерживает архитектуру

Убедитесь, что вы используете vLLM ≥0.7.0 с --trust-remote-code; пользовательские слои внимания требуют этого флага

GGUF недоступен

Проверьте unslotharrow-up-right или сообщественные квантования; модель может потребовать времени, пока сообщество её квантирует

Плохое качество ответов

Используйте temperature ≤0.1 для фактических задач; добавьте системный промпт; убедитесь, что вы не обрезаете контекст

Дополнительное чтение

Последнее обновление

Это было полезно?