# Ling-2.5-1T (1 триллион параметров)

Ling-2.5-1T от Ant Group (выпущена 16 февраля 2026 г.) — одна из крупнейших когда-либо выпущенных открытых языковых моделей — **всего 1 триллион параметров, из которых 63B активны**. Она вводит гибридную архитектуру линейного внимания, которая обеспечивает эффективный вывод при длинах контекста до 1 миллиона токенов. Вместе с ней Ant Group выпустила Ring-2.5-1T, первую в мире мыслительную модель с гибридной линейной архитектурой. В совокупности они представляют новый рубеж в открытом ИИ — конкурентоспособны с GPT-5.2, DeepSeek V3.2 и Kimi K2.5 по показателям рассуждения и агентских бенчмарках.

**HuggingFace:** [inclusionAI/Ling-2.5-1T](https://huggingface.co/inclusionAI/Ling-2.5-1T) **Сопутствующая модель:** [inclusionAI/Ring-2.5-1T](https://huggingface.co/inclusionAI/Ring-2.5-1T) (вариант для мышления/рассуждения) **Лицензия:** Открытый исходный код (Лицензия Ant Group InclusionAI)

## Ключевые особенности

* **всего 1 триллион параметров, 63B активных** — огромный масштаб с эффективной активацией в стиле MoE
* **Гибридное линейное внимание** — сочетает MLA (многоголовое линейное внимание) с Lightning Linear Attention для исключительной пропускной способности на длинных последовательностях
* **Окно контекста 1M токенов** — через расширение YaRN от нативных 256K, обрабатывает целые кодовые базы и документы длиной с книгу
* **Передовое рассуждение** — приближается к производительности мыслительной модели, используя примерно в 4× меньше выходных токенов
* **Агентные возможности** — обучена с Agentic RL, совместима с Claude Code, OpenCode и OpenClaw
* **Сопутствующий Ring-2.5-1T** — специальный вариант для рассуждений достигает уровня золотой медали IMO 2025 и CMO 2025

## Детали архитектуры

| Компонент               | Детали                                               |
| ----------------------- | ---------------------------------------------------- |
| Всего параметров        | 1T (1 000B)                                          |
| Активные параметры      | 63B                                                  |
| Архитектура             | Гибридное линейное внимание (MLA + Lightning Linear) |
| Данные для предобучения | 29T токенов                                          |
| Нативный контекст       | 256K токенов                                         |
| Расширенный контекст    | 1M токенов (YaRN)                                    |
| Дата выпуска            | 16 февраля 2026 г.                                   |

## Требования

Запуск Ling-2.5-1T в полную точность требует значительных ресурсов. Квантованные версии делают её более доступной.

| Конфигурация | Квантованная (Q4 GGUF) | FP8            | BF16 (полная)    |
| ------------ | ---------------------- | -------------- | ---------------- |
| GPU          | 8× RTX 4090            | 8× H100 80GB   | 16× H100 80GB    |
| VRAM         | 8×24GB (192GB)         | 8×80GB (640GB) | 16×80GB (1.28TB) |
| ОЗУ          | 256GB                  | 512GB          | 1TB              |
| Диск         | 600GB                  | 1.2TB          | 2TB+             |
| CUDA         | 12.0+                  | 12.0+          | 12.0+            |

**Рекомендуемая настройка Clore.ai:**

* **Квантованная (Q4):** 8× RTX 4090 (\~$4–16/день) — подходит для экспериментов и умеренных нагрузок
* **Продакшен (FP8):** 8× H100 (\~$24–48/день) — полное качество с хорошей пропускной способностью
* **Примечание:** Это чрезвычайно большая модель. Для пользователей с ограниченным бюджетом рассмотрите более мелкие модели семейства Ling на [HuggingFace](https://huggingface.co/inclusionAI).

## Быстрый старт с vLLM

vLLM — рекомендуемая система обслуживания для Ling-2.5-1T:

```bash
# Установите vLLM
pip install vllm

# Запустите Ling-2.5-1T с тензорным параллелизмом на 8 GPU
vllm serve inclusionAI/Ling-2.5-1T \
    --tensor-parallel-size 8 \
    --max-model-len 65536 \
    --gpu-memory-utilization 0.90 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

# Для уменьшения памяти ограничьте длину контекста:
vllm serve inclusionAI/Ling-2.5-1T \
    --tensor-parallel-size 8 \
    --max-model-len 16384 \
    --gpu-memory-utilization 0.95 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000
```

## Быстрый старт с llama.cpp (квантованная)

Для конфигураций с потребительскими GPU доступны GGUF-квантования:

```bash
# Установите llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)

# Скачайте квантованный GGUF (проверьте HuggingFace на предмет доступных квантов)
huggingface-cli download inclusionAI/Ling-2.5-1T-GGUF \
    --include "*.Q4_K_M.gguf" \
    --local-dir ./models/

# Запустите с llama-server (адаптируйте -ngl под число ваших GPU)
./build/bin/llama-server \
    -m ./models/Ling-2.5-1T-Q4_K_M.gguf \
    -ngl 99 \
    -c 8192 \
    --host 0.0.0.0 \
    --port 8000
```

## Примеры использования

### 1. Завершение чата через OpenAI API

После запуска vLLM или llama-server:

```python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="не_требуется"
)

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[
        {"role": "system", "content": "Вы — первоклассный ассистент по рассуждениям. Думайте шаг за шагом."},
        {"role": "user", "content": "Докажите, что квадратный корень из 2 иррационален."}
    ],
    temperature=0.1,
    max_tokens=4096
)

print(response.choices[0].message.content)
```

### 2. Анализ документов с длинным контекстом

Гибридное линейное внимание Ling-2.5-1T делает её исключительно эффективной для длинных документов:

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

# Загрузите большой документ
with open("full_codebase.txt", "r") as f:
    codebase = f.read()  # Может быть сотни тысяч токенов

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[
        {"role": "system", "content": "Вы — старший архитектор программного обеспечения."},
        {"role": "user", "content": f"Проанализируй эту кодовую базу на предмет уязвимостей безопасности и архитектурных проблем:\n\n{codebase}"}
    ],
    temperature=0.1,
    max_tokens=8192
)

print(response.choices[0].message.content)
```

### 3. Агентское использование инструментов

Ling-2.5-1T обучена с Agentic RL для вызова инструментов:

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

tools = [
    {
        "type": "function",
        "function": {
            "name": "search_database",
            "description": "Поиск в базе продуктов",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string"},
                    "category": {"type": "string", "enum": ["electronics", "clothing", "books"]},
                    "max_price": {"type": "number"}
                },
                "required": ["query"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[{"role": "user", "content": "Найдите для меня ноутбук дешевле $1000 с хорошими отзывами"}],
    tools=tools,
    tool_choice="auto"
)

print(response.choices[0].message.tool_calls)
```

## Ling-2.5-1T против Ring-2.5-1T

| Аспект                   | Ling-2.5-1T                              | Ring-2.5-1T                                        |
| ------------------------ | ---------------------------------------- | -------------------------------------------------- |
| Тип                      | Модель мгновенного (быстрого) ответа     | Модель для мышления (рассуждений)                  |
| Архитектура              | Гибридное линейное внимание              | Гибридное линейное внимание                        |
| Лучше всего для          | Общий чат, кодирование, агентские задачи | Математика, формальные рассуждения, сложные задачи |
| Стиль вывода             | Прямые ответы                            | Последовательные рассуждения (chain-of-thought)    |
| Эффективность по токенам | Высокая (меньше выходных токенов)        | Использует больше токенов для рассуждений          |
| IMO 2025                 | Конкурентоспособно                       | Уровень золотой медали                             |

## Советы для пользователей Clore.ai

1. **Эта модель требует серьёзного оборудования** — При 1T параметров даже квантование Q4 требует \~500GB дискового пространства и 192GB+ видеопамяти. Убедитесь, что ваш экземпляр Clore.ai имеет достаточный диск и мульти-GPU перед загрузкой.
2. **Начните с `--max-model-len 8192`** — При первичном тестировании используйте короткий контекст, чтобы убедиться, что модель загружается и работает корректно. Увеличивайте длину контекста после проверки.
3. **Используйте постоянное хранилище** — Модель занимает 1–2TB. Подключите большой постоянный том в Clore.ai, чтобы избежать повторной загрузки. Скачайте один раз с помощью `huggingface-cli download`.
4. **Рассмотрите Ring-2.5-1T для задач рассуждения** — Если ваш кейс в основном касается математики, логики или формальных рассуждений, сопутствующая модель Ring-2.5-1T специально оптимизирована для последовательных рассуждений.
5. **Мониторьте память GPU** — Для конфигураций с 8 GPU используйте `nvidia-smi -l 1` чтобы отслеживать использование памяти и следить за OOM во время генерации с длинными контекстами.

## Устранение неполадок

| Проблема                         | Решение                                                                                                                                             |
| -------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------- |
| `CUDA — недостаточно памяти`     | Уменьшите `--max-model-len`; убедитесь, `--tensor-parallel-size` соответствует числу GPU; попробуйте `--gpu-memory-utilization 0.95`                |
| Очень медленная генерация        | Линейному вниманию нужен разогрев; первые запросы могут быть медленными. Также проверьте наличие NVLink между GPU                                   |
| Сбой загрузки модели             | Модель занимает \~2TB в BF16. Убедитесь в наличии достаточного дискового пространства. Используйте `--resume-download` флаг с `huggingface-cli`     |
| vLLM не поддерживает архитектуру | Убедитесь, что вы используете vLLM ≥0.7.0 с `--trust-remote-code`; пользовательские слои внимания требуют этого флага                               |
| GGUF недоступен                  | Проверьте [unsloth](https://huggingface.co/unsloth) или сообщественные квантования; модель может потребовать времени, пока сообщество её квантирует |
| Плохое качество ответов          | Используйте temperature ≤0.1 для фактических задач; добавьте системный промпт; убедитесь, что вы не обрезаете контекст                              |

## Дополнительное чтение

* [Официальное объявление (BusinessWire)](https://www.businesswire.com/news/home/20260215551663/en/) — детали релиза и бенчмарки
* [HuggingFace — Ling-2.5-1T](https://huggingface.co/inclusionAI/Ling-2.5-1T) — веса модели и документация
* [HuggingFace — Ring-2.5-1T](https://huggingface.co/inclusionAI/Ring-2.5-1T) — сопутствующая мыслительная модель
* [Зеркало ModelScope](https://www.modelscope.cn/models/inclusionAI/Ling-2.5-1T) — более быстрые загрузки в Азии
* [Документация vLLM](https://docs.vllm.ai/) — фреймворк для обслуживания
