Ling-2.5-1T (1 триллион параметров)

Запустите Ling-2.5-1T — открытый LLM Ant Group с триллионом параметров и гибридным линейным вниманием на GPU Clore.ai

Ling-2.5-1T от Ant Group (выпущена 16 февраля 2026 г.) — одна из крупнейших когда-либо выпущенных открытых языковых моделей — всего 1 триллион параметров, из которых 63B активны. Она вводит гибридную архитектуру линейного внимания, которая обеспечивает эффективный вывод при длинах контекста до 1 миллиона токенов. Вместе с ней Ant Group выпустила Ring-2.5-1T, первую в мире мыслительную модель с гибридной линейной архитектурой. В совокупности они представляют новый рубеж в открытом ИИ — конкурентоспособны с GPT-5.2, DeepSeek V3.2 и Kimi K2.5 по показателям рассуждения и агентских бенчмарках.

HuggingFace: inclusionAI/Ling-2.5-1T Сопутствующая модель: inclusionAI/Ring-2.5-1T (вариант для мышления/рассуждения) Лицензия: Открытый исходный код (Лицензия Ant Group InclusionAI)

Ключевые особенности

всего 1 триллион параметров, 63B активных — огромный масштаб с эффективной активацией в стиле MoE
Гибридное линейное внимание — сочетает MLA (многоголовое линейное внимание) с Lightning Linear Attention для исключительной пропускной способности на длинных последовательностях
Окно контекста 1M токенов — через расширение YaRN от нативных 256K, обрабатывает целые кодовые базы и документы длиной с книгу
Передовое рассуждение — приближается к производительности мыслительной модели, используя примерно в 4× меньше выходных токенов
Агентные возможности — обучена с Agentic RL, совместима с Claude Code, OpenCode и OpenClaw
Сопутствующий Ring-2.5-1T — специальный вариант для рассуждений достигает уровня золотой медали IMO 2025 и CMO 2025

Детали архитектуры

Компонент

Детали

Всего параметров

1T (1 000B)

Активные параметры

63B

Архитектура

Гибридное линейное внимание (MLA + Lightning Linear)

Данные для предобучения

29T токенов

Нативный контекст

256K токенов

Расширенный контекст

1M токенов (YaRN)

Дата выпуска

16 февраля 2026 г.

Требования

Запуск Ling-2.5-1T в полную точность требует значительных ресурсов. Квантованные версии делают её более доступной.

Конфигурация

Квантованная (Q4 GGUF)

FP8

BF16 (полная)

GPU

8× RTX 4090

8× H100 80GB

16× H100 80GB

VRAM

8×24GB (192GB)

8×80GB (640GB)

16×80GB (1.28TB)

ОЗУ

256GB

512GB

1TB

Диск

600GB

1.2TB

2TB+

CUDA

12.0+

Рекомендуемая настройка Clore.ai:

Квантованная (Q4): 8× RTX 4090 (~$4–16/день) — подходит для экспериментов и умеренных нагрузок
Продакшен (FP8): 8× H100 (~$24–48/день) — полное качество с хорошей пропускной способностью
Примечание: Это чрезвычайно большая модель. Для пользователей с ограниченным бюджетом рассмотрите более мелкие модели семейства Ling на HuggingFace.

Быстрый старт с vLLM

vLLM — рекомендуемая система обслуживания для Ling-2.5-1T:

# Установите vLLM
pip install vllm

# Запустите Ling-2.5-1T с тензорным параллелизмом на 8 GPU
vllm serve inclusionAI/Ling-2.5-1T \
    --tensor-parallel-size 8 \
    --max-model-len 65536 \
    --gpu-memory-utilization 0.90 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

# Для уменьшения памяти ограничьте длину контекста:
vllm serve inclusionAI/Ling-2.5-1T \
    --tensor-parallel-size 8 \
    --max-model-len 16384 \
    --gpu-memory-utilization 0.95 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

Быстрый старт с llama.cpp (квантованная)

Для конфигураций с потребительскими GPU доступны GGUF-квантования:

# Установите llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)

# Скачайте квантованный GGUF (проверьте HuggingFace на предмет доступных квантов)
huggingface-cli download inclusionAI/Ling-2.5-1T-GGUF \
    --include "*.Q4_K_M.gguf" \
    --local-dir ./models/

# Запустите с llama-server (адаптируйте -ngl под число ваших GPU)
./build/bin/llama-server \
    -m ./models/Ling-2.5-1T-Q4_K_M.gguf \
    -ngl 99 \
    -c 8192 \
    --host 0.0.0.0 \
    --port 8000

Примеры использования

1. Завершение чата через OpenAI API

После запуска vLLM или llama-server:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="не_требуется"
)

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[
        {"role": "system", "content": "Вы — первоклассный ассистент по рассуждениям. Думайте шаг за шагом."},
        {"role": "user", "content": "Докажите, что квадратный корень из 2 иррационален."}
    ],
    temperature=0.1,
    max_tokens=4096
)

print(response.choices[0].message.content)

2. Анализ документов с длинным контекстом

Гибридное линейное внимание Ling-2.5-1T делает её исключительно эффективной для длинных документов:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

# Загрузите большой документ
with open("full_codebase.txt", "r") as f:
    codebase = f.read()  # Может быть сотни тысяч токенов

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[
        {"role": "system", "content": "Вы — старший архитектор программного обеспечения."},
        {"role": "user", "content": f"Проанализируй эту кодовую базу на предмет уязвимостей безопасности и архитектурных проблем:\n\n{codebase}"}
    ],
    temperature=0.1,
    max_tokens=8192
)

print(response.choices[0].message.content)

3. Агентское использование инструментов

Ling-2.5-1T обучена с Agentic RL для вызова инструментов:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

tools = [
    {
        "type": "function",
        "function": {
            "name": "search_database",
            "description": "Поиск в базе продуктов",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string"},
                    "category": {"type": "string", "enum": ["electronics", "clothing", "books"]},
                    "max_price": {"type": "number"}
                },
                "required": ["query"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[{"role": "user", "content": "Найдите для меня ноутбук дешевле $1000 с хорошими отзывами"}],
    tools=tools,
    tool_choice="auto"
)

print(response.choices[0].message.tool_calls)

Ling-2.5-1T против Ring-2.5-1T

Аспект

Ling-2.5-1T

Ring-2.5-1T

Тип

Модель мгновенного (быстрого) ответа

Модель для мышления (рассуждений)

Архитектура

Гибридное линейное внимание

Лучше всего для

Общий чат, кодирование, агентские задачи

Математика, формальные рассуждения, сложные задачи

Стиль вывода

Прямые ответы

Последовательные рассуждения (chain-of-thought)

Эффективность по токенам

Высокая (меньше выходных токенов)

Использует больше токенов для рассуждений

IMO 2025

Конкурентоспособно

Уровень золотой медали

Советы для пользователей Clore.ai

Эта модель требует серьёзного оборудования — При 1T параметров даже квантование Q4 требует ~500GB дискового пространства и 192GB+ видеопамяти. Убедитесь, что ваш экземпляр Clore.ai имеет достаточный диск и мульти-GPU перед загрузкой.
Начните с --max-model-len 8192 — При первичном тестировании используйте короткий контекст, чтобы убедиться, что модель загружается и работает корректно. Увеличивайте длину контекста после проверки.
Используйте постоянное хранилище — Модель занимает 1–2TB. Подключите большой постоянный том в Clore.ai, чтобы избежать повторной загрузки. Скачайте один раз с помощью huggingface-cli download.
Рассмотрите Ring-2.5-1T для задач рассуждения — Если ваш кейс в основном касается математики, логики или формальных рассуждений, сопутствующая модель Ring-2.5-1T специально оптимизирована для последовательных рассуждений.
Мониторьте память GPU — Для конфигураций с 8 GPU используйте nvidia-smi -l 1 чтобы отслеживать использование памяти и следить за OOM во время генерации с длинными контекстами.

Устранение неполадок

Проблема

Решение

CUDA — недостаточно памяти

Уменьшите --max-model-len; убедитесь, --tensor-parallel-size соответствует числу GPU; попробуйте --gpu-memory-utilization 0.95

Очень медленная генерация

Линейному вниманию нужен разогрев; первые запросы могут быть медленными. Также проверьте наличие NVLink между GPU

Сбой загрузки модели

Модель занимает ~2TB в BF16. Убедитесь в наличии достаточного дискового пространства. Используйте --resume-download флаг с huggingface-cli

vLLM не поддерживает архитектуру

Убедитесь, что вы используете vLLM ≥0.7.0 с --trust-remote-code; пользовательские слои внимания требуют этого флага

GGUF недоступен

Проверьте unsloth или сообщественные квантования; модель может потребовать времени, пока сообщество её квантирует

Плохое качество ответов

Используйте temperature ≤0.1 для фактических задач; добавьте системный промпт; убедитесь, что вы не обрезаете контекст

Дополнительное чтение

Официальное объявление (BusinessWire) — детали релиза и бенчмарки
HuggingFace — Ling-2.5-1T — веса модели и документация
HuggingFace — Ring-2.5-1T — сопутствующая мыслительная модель
Зеркало ModelScope — более быстрые загрузки в Азии
Документация vLLM — фреймворк для обслуживания

ПредыдущаяMiMo-V2-Flash СледующаяLFM2-24B-A2B

Последнее обновление 23 дня назад

Это было полезно?

hashtagКлючевые особенности

hashtagДетали архитектуры

hashtagТребования

hashtagБыстрый старт с vLLM

hashtagБыстрый старт с llama.cpp (квантованная)

hashtagПримеры использования

hashtag1. Завершение чата через OpenAI API

hashtag2. Анализ документов с длинным контекстом

hashtag3. Агентское использование инструментов

hashtagLing-2.5-1T против Ring-2.5-1T

hashtagСоветы для пользователей Clore.ai

hashtagУстранение неполадок

hashtagДополнительное чтение