> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/ling25.md).

# Ling-2.5-1T (1 триллион параметров)

Ling-2.5-1T от Ant Group (выпущена 16 февраля 2026 г.) — одна из крупнейших когда-либо выпущенных открытых языковых моделей — **всего 1 триллион параметров, из которых 63B активны**. Она вводит гибридную архитектуру линейного внимания, которая обеспечивает эффективный вывод при длинах контекста до 1 миллиона токенов. Вместе с ней Ant Group выпустила Ring-2.5-1T, первую в мире мыслительную модель с гибридной линейной архитектурой. В совокупности они представляют новый рубеж в открытом ИИ — конкурентоспособны с GPT-5.2, DeepSeek V3.2 и Kimi K2.5 по показателям рассуждения и агентских бенчмарках.

**HuggingFace:** [inclusionAI/Ling-2.5-1T](https://huggingface.co/inclusionAI/Ling-2.5-1T) **Сопутствующая модель:** [inclusionAI/Ring-2.5-1T](https://huggingface.co/inclusionAI/Ring-2.5-1T) (вариант для мышления/рассуждения) **Лицензия:** Открытый исходный код (Лицензия Ant Group InclusionAI)

## Ключевые особенности

* **всего 1 триллион параметров, 63B активных** — огромный масштаб с эффективной активацией в стиле MoE
* **Гибридное линейное внимание** — сочетает MLA (многоголовое линейное внимание) с Lightning Linear Attention для исключительной пропускной способности на длинных последовательностях
* **Окно контекста 1M токенов** — через расширение YaRN от нативных 256K, обрабатывает целые кодовые базы и документы длиной с книгу
* **Передовое рассуждение** — приближается к производительности мыслительной модели, используя примерно в 4× меньше выходных токенов
* **Агентные возможности** — обучена с Agentic RL, совместима с Claude Code, OpenCode и OpenClaw
* **Сопутствующий Ring-2.5-1T** — специальный вариант для рассуждений достигает уровня золотой медали IMO 2025 и CMO 2025

## Детали архитектуры

| Компонент               | Детали                                               |
| ----------------------- | ---------------------------------------------------- |
| Всего параметров        | 1T (1 000B)                                          |
| Активные параметры      | 63B                                                  |
| Архитектура             | Гибридное линейное внимание (MLA + Lightning Linear) |
| Данные для предобучения | 29T токенов                                          |
| Нативный контекст       | 256K токенов                                         |
| Расширенный контекст    | 1M токенов (YaRN)                                    |
| Дата выпуска            | 16 февраля 2026 г.                                   |

## Требования

Запуск Ling-2.5-1T в полную точность требует значительных ресурсов. Квантованные версии делают её более доступной.

| Конфигурация | Квантованная (Q4 GGUF) | FP8            | BF16 (полная)    |
| ------------ | ---------------------- | -------------- | ---------------- |
| GPU          | 8× RTX 4090            | 8× H100 80GB   | 16× H100 80GB    |
| VRAM         | 8×24GB (192GB)         | 8×80GB (640GB) | 16×80GB (1.28TB) |
| ОЗУ          | 256GB                  | 512GB          | 1TB              |
| Диск         | 600GB                  | 1.2TB          | 2TB+             |
| CUDA         | 12.0+                  | 12.0+          | 12.0+            |

**Рекомендуемая настройка Clore.ai:**

* **Квантованная (Q4):** 8× RTX 4090 (\~$4–16/день) — подходит для экспериментов и умеренных нагрузок
* **Продакшен (FP8):** 8× H100 (\~$24–48/день) — полное качество с хорошей пропускной способностью
* **Примечание:** Это чрезвычайно большая модель. Для пользователей с ограниченным бюджетом рассмотрите более мелкие модели семейства Ling на [HuggingFace](https://huggingface.co/inclusionAI).

## Быстрый старт с vLLM

vLLM — рекомендуемая система обслуживания для Ling-2.5-1T:

```bash
# Установите vLLM
pip install vllm

# Запустите Ling-2.5-1T с тензорным параллелизмом на 8 GPU
vllm serve inclusionAI/Ling-2.5-1T \
    --tensor-parallel-size 8 \
    --max-model-len 65536 \
    --gpu-memory-utilization 0.90 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

# Для уменьшения памяти ограничьте длину контекста:
vllm serve inclusionAI/Ling-2.5-1T \
    --tensor-parallel-size 8 \
    --max-model-len 16384 \
    --gpu-memory-utilization 0.95 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000
```

## Быстрый старт с llama.cpp (квантованная)

Для конфигураций с потребительскими GPU доступны GGUF-квантования:

```bash
# Установите llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)

# Скачайте квантованный GGUF (проверьте HuggingFace на предмет доступных квантов)
huggingface-cli download inclusionAI/Ling-2.5-1T-GGUF \
    --include "*.Q4_K_M.gguf" \
    --local-dir ./models/

# Запустите с llama-server (адаптируйте -ngl под число ваших GPU)
./build/bin/llama-server \
    -m ./models/Ling-2.5-1T-Q4_K_M.gguf \
    -ngl 99 \
    -c 8192 \
    --host 0.0.0.0 \
    --port 8000
```

## Примеры использования

### 1. Завершение чата через OpenAI API

После запуска vLLM или llama-server:

```python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="не_требуется"
)

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[
        {"role": "system", "content": "Вы — первоклассный ассистент по рассуждениям. Думайте шаг за шагом."},
        {"role": "user", "content": "Докажите, что квадратный корень из 2 иррационален."}
    ],
    temperature=0.1,
    max_tokens=4096
)

print(response.choices[0].message.content)
```

### 2. Анализ документов с длинным контекстом

Гибридное линейное внимание Ling-2.5-1T делает её исключительно эффективной для длинных документов:

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

# Загрузите большой документ
with open("full_codebase.txt", "r") as f:
    codebase = f.read()  # Может быть сотни тысяч токенов

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[
        {"role": "system", "content": "Вы — старший архитектор программного обеспечения."},
        {"role": "user", "content": f"Проанализируй эту кодовую базу на предмет уязвимостей безопасности и архитектурных проблем:\n\n{codebase}"}
    ],
    temperature=0.1,
    max_tokens=8192
)

print(response.choices[0].message.content)
```

### 3. Агентское использование инструментов

Ling-2.5-1T обучена с Agentic RL для вызова инструментов:

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

tools = [
    {
        "type": "function",
        "function": {
            "name": "search_database",
            "description": "Поиск в базе продуктов",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string"},
                    "category": {"type": "string", "enum": ["electronics", "clothing", "books"]},
                    "max_price": {"type": "number"}
                },
                "required": ["query"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[{"role": "user", "content": "Найдите для меня ноутбук дешевле $1000 с хорошими отзывами"}],
    tools=tools,
    tool_choice="auto"
)

print(response.choices[0].message.tool_calls)
```

## Ling-2.5-1T против Ring-2.5-1T

| Аспект                   | Ling-2.5-1T                              | Ring-2.5-1T                                        |
| ------------------------ | ---------------------------------------- | -------------------------------------------------- |
| Тип                      | Модель мгновенного (быстрого) ответа     | Модель для мышления (рассуждений)                  |
| Архитектура              | Гибридное линейное внимание              | Гибридное линейное внимание                        |
| Лучше всего для          | Общий чат, кодирование, агентские задачи | Математика, формальные рассуждения, сложные задачи |
| Стиль вывода             | Прямые ответы                            | Последовательные рассуждения (chain-of-thought)    |
| Эффективность по токенам | Высокая (меньше выходных токенов)        | Использует больше токенов для рассуждений          |
| IMO 2025                 | Конкурентоспособно                       | Уровень золотой медали                             |

## Советы для пользователей Clore.ai

1. **Эта модель требует серьёзного оборудования** — При 1T параметров даже квантование Q4 требует \~500GB дискового пространства и 192GB+ видеопамяти. Убедитесь, что ваш экземпляр Clore.ai имеет достаточный диск и мульти-GPU перед загрузкой.
2. **Начните с `--max-model-len 8192`** — При первичном тестировании используйте короткий контекст, чтобы убедиться, что модель загружается и работает корректно. Увеличивайте длину контекста после проверки.
3. **Используйте постоянное хранилище** — Модель занимает 1–2TB. Подключите большой постоянный том в Clore.ai, чтобы избежать повторной загрузки. Скачайте один раз с помощью `huggingface-cli download`.
4. **Рассмотрите Ring-2.5-1T для задач рассуждения** — Если ваш кейс в основном касается математики, логики или формальных рассуждений, сопутствующая модель Ring-2.5-1T специально оптимизирована для последовательных рассуждений.
5. **Мониторьте память GPU** — Для конфигураций с 8 GPU используйте `nvidia-smi -l 1` чтобы отслеживать использование памяти и следить за OOM во время генерации с длинными контекстами.

## Устранение неполадок

| Проблема                         | Решение                                                                                                                                             |
| -------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------- |
| `CUDA — недостаточно памяти`     | Уменьшите `--max-model-len`; убедитесь, `--tensor-parallel-size` соответствует числу GPU; попробуйте `--gpu-memory-utilization 0.95`                |
| Очень медленная генерация        | Линейному вниманию нужен разогрев; первые запросы могут быть медленными. Также проверьте наличие NVLink между GPU                                   |
| Сбой загрузки модели             | Модель занимает \~2TB в BF16. Убедитесь в наличии достаточного дискового пространства. Используйте `--resume-download` флаг с `huggingface-cli`     |
| vLLM не поддерживает архитектуру | Убедитесь, что вы используете vLLM ≥0.7.0 с `--trust-remote-code`; пользовательские слои внимания требуют этого флага                               |
| GGUF недоступен                  | Проверьте [unsloth](https://huggingface.co/unsloth) или сообщественные квантования; модель может потребовать времени, пока сообщество её квантирует |
| Плохое качество ответов          | Используйте temperature ≤0.1 для фактических задач; добавьте системный промпт; убедитесь, что вы не обрезаете контекст                              |

## Дополнительное чтение

* [Официальное объявление (BusinessWire)](https://www.businesswire.com/news/home/20260215551663/en/) — детали релиза и бенчмарки
* [HuggingFace — Ling-2.5-1T](https://huggingface.co/inclusionAI/Ling-2.5-1T) — веса модели и документация
* [HuggingFace — Ring-2.5-1T](https://huggingface.co/inclusionAI/Ring-2.5-1T) — сопутствующая мыслительная модель
* [Зеркало ModelScope](https://www.modelscope.cn/models/inclusionAI/Ling-2.5-1T) — более быстрые загрузки в Азии
* [Документация vLLM](https://docs.vllm.ai/) — фреймворк для обслуживания


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/ling25.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
