> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/ling-26-flash.md).

# Ling-2.6-flash (Ant Group 104B MoE)

{% hint style="info" %}
**Статус (29 апреля 2026):** Ling-2.6-flash был выпущен командой **inclusionAI** компании Ant Group **28 апреля 2026 года** (за один день до момента написания). Это младший, быстрый, дообученный под агентов собрат [Ling-2.5-1T](/guides/guides_v2-ru/yazykovye-modeli/ling25.md) — та же линия, та же гибридная ДНК линейного внимания, но только с **7,4 млрд активных параметров** из 104 млрд в разреженной MoE. Веса доступны на [huggingface.co/inclusionAI/Ling-2.6-flash](https://huggingface.co/inclusionAI/Ling-2.6-flash) под **лицензией MIT**.
{% endhint %}

Где [Ling-2.5-1T](/guides/guides_v2-ru/yazykovye-modeli/ling25.md) нуждался в стойке из 8 GPU даже для запуска, Ling-2.6-flash — это **первый релиз inclusionAI, который помещается на одном потребительском GPU**. Путь с 7,4 млрд активных параметров означает, что вы платите за инференс как за плотную модель на 8 млрд параметров, используя при этом пул из 104 млрд параметров — и Ant Group специально настроила этот пул для **агентных рабочих процессов**: вызовов инструментов, многошагового планирования и структурированной диспетчеризации функций.

Опубликованные вендором числа ставят Ling-2.6-flash на SOTA в **BFCL-V4** и **TAU2-bench** для своего класса размера, с пропускной способностью примерно **340 ток/с на 4× H20** в официальной конфигурации бенчмарка. Для пользователей Clore.ai более интересная строка гораздо меньше: **INT4 comfortably помещается на одной RTX 4090 (24 ГБ)** с запасом для контекста 32K+, и **FP8 помещается на одном H100 80 ГБ**. Это ставит свежую, дообученную под агентов small-модель frontier-класса примерно на $0,70–2,50/ч на [маркетплейсе Clore.ai](https://clore.ai/marketplace).

### Ключевые характеристики

| Свойство                   | Значение                                                             |
| -------------------------- | -------------------------------------------------------------------- |
| Общее число параметров     | 104 млрд (MoE)                                                       |
| Активные параметры         | 7,4 млрд на один проход вперёд                                       |
| Архитектура                | гибридное внимание 1:7 MLA + Lightning Linear                        |
| Окно контекста             | 262 144 токена                                                       |
| Квантизации                | BF16, FP8, INT4                                                      |
| Лицензия                   | MIT                                                                  |
| Дата релиза                | 28 апреля 2026 года                                                  |
| Организация                | Ant Group — inclusionAI                                              |
| Основной стек инструментов | SGLang (рекомендуется), vLLM, llama.cpp/Ollama (сообщественный GGUF) |

### Почему Ling-2.6-flash?

* **Развёртывание на одном GPU** — INT4 на одной [RTX 4090](https://clore.ai/rent-4090.html) или [RTX 3090](https://clore.ai/rent-3090.html), FP8 на одном H100. Никакой возни с несколькими GPU, никакой борьбы с NVLink.
* **Дообучен под агентов** — специально обучен для циклов вызова инструментов в стиле BFCL-V4 / TAU2-bench, а не просто постфактум протестирован на них.
* **Качество sparse MoE при стоимости 7,4 млрд активных параметров** — вы получаете пул знаний на 104 млрд параметров через путь инференса на 7,4 млрд.
* **Контекст 256K из коробки** — 262K нативных токенов, без необходимости в трюках YaRN для длинных агентных трасс.
* **лицензией MIT** — полностью коммерческий, дообучаемый, распространяемый.
* **Происхождение** — прямой потомок [Ling-2.5-1T](/guides/guides_v2-ru/yazykovye-modeli/ling25.md) и Ring-2.5; архитектура проверена в бою.

***

## Требования

{% hint style="success" %}
**Дружелюбен к Clore.** Это первая модель в линейке inclusionAI, которая работает на одном потребительском GPU. Если вы были не готовы платить за [Ling-2.5-1T](/guides/guides_v2-ru/yazykovye-modeli/ling25.md) или [GLM-5.1](/guides/guides_v2-ru/yazykovye-modeli/glm-5-1.md), это точка входа.
{% endhint %}

| Компонент             | INT4 (одна карта 24 ГБ)    | FP8 (одна карта 80 ГБ) | BF16 (полное качество)           |
| --------------------- | -------------------------- | ---------------------- | -------------------------------- |
| VRAM GPU              | 1× RTX 4090 / 3090 (24 ГБ) | 1× H100 / A100 80 ГБ   | 2× A100 80 ГБ или 1× H200 141 ГБ |
| RAM                   | 32GB                       | 64GB                   | 128GB                            |
| Диск                  | 60GB NVMe                  | 120 ГБ NVMe            | 220 ГБ NVMe                      |
| CUDA                  | 12.0+                      | 12.4+                  | 12.4+                            |
| Практический контекст | 32K–64K                    | 128K                   | 256K                             |

**Выбор Clore.ai:** Для большинства агентных задач одна [RTX 4090 (\~$0,70–2,50/ч)](https://clore.ai/rent-4090.html) запущенная в INT4 GGUF, вне конкуренции по цене. Переходите на один H100, если вам нужно качество FP8 или контекст 128K+.

***

## Вариант A — Ollama / GGUF (квантизированный, один GPU)

Это путь, который нужен большинству пользователей Clore.ai. Сообщественные GGUF обычно появляются на HuggingFace в течение нескольких дней после релиза inclusionAI.

{% hint style="warning" %}
**Подсказка на первый день:** Ling-2.6-flash вышел 28 апреля 2026 года. На момент написания community-кванты GGUF могут ещё только появляться. Следите за [huggingface.co/models?search=ling-2.6-flash+gguf](https://huggingface.co/models?search=ling-2.6-flash+gguf) и [unsloth](https://huggingface.co/unsloth) за первыми сборками. Если `ollama pull` возвращает 404, укажите llama.cpp напрямую на файл GGUF.
{% endhint %}

```bash
# Когда опубликована community-сборка Q4_K_M
docker exec ollama ollama pull ling-2.6-flash:q4_K_M
docker exec ollama ollama run ling-2.6-flash:q4_K_M

# Или с llama.cpp напрямую на скачанном GGUF
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/ling-2.6-flash-q4_k_m.gguf \
  --n-gpu-layers 99 --ctx-size 32768 \
  --port 8080 --host 0.0.0.0
```

Одна RTX 4090 должна выдавать **\~80–120 ток/с** на Q4\_K\_M с контекстом 32K — более чем достаточно для интерактивной агентной работы.

***

## Вариант B — vLLM (production API)

vLLM — это основной выбор для обслуживания Ling-2.6-flash для нескольких параллельных агентов. Используйте контрольную точку FP8 на одном H100 / A100 80 ГБ:

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model inclusionAI/Ling-2.6-flash-FP8
      --tensor-parallel-size 1
      --max-model-len 65536
      --gpu-memory-utilization 0.90
      --enable-auto-tool-choice
      --tool-call-parser hermes
      --served-model-name ling-2.6-flash
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Проверка агентного пути
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "ling-2.6-flash",
    "messages": [
      {"role": "system", "content": "Вы — агент с доступом к инструментам. Спланируйте, вызовите инструменты, затем ответьте."},
      {"role": "user", "content": "Найдите мне прямо сейчас самую дешёвую RTX 4090 на Clore.ai."}
    ],
    "tools": [{"type": "function", "function": {"name": "search_marketplace", "parameters": {"type":"object","properties":{"gpu":{"type":"string"}}}}}],
    "tool_choice": "auto",
    "max_tokens": 2048
  }'
```

{% hint style="info" %}
Для полного качества BF16 на длинных контекстах (200K+), масштабируйтесь `--tensor-parallel-size 2` на 2× A100 80 ГБ или закрепите на одном H200 141 ГБ.
{% endhint %}

***

## Вариант C — SGLang (рекомендуется для максимальной пропускной способности)

SGLang — это то, что Ant Group использует для официального бенчмарка 340 ток/с — путь гибридного линейного внимания быстрее всего работает в runtime SGLang.

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \
  --model-path inclusionAI/Ling-2.6-flash-FP8 \
  --tp-size 1 \
  --tool-call-parser hermes \
  --mem-fraction-static 0.90 \
  --context-length 65536 \
  --served-model-name ling-2.6-flash \
  --host 0.0.0.0 --port 30000

# Чтобы воспроизвести вендорское значение 340 ток/с (требуется 4x H20 / класс H100)
python3 -m sglang.launch_server \
  --model-path inclusionAI/Ling-2.6-flash \
  --tp-size 4 \
  --mem-fraction-static 0.92 \
  --context-length 32768 \
  --served-model-name ling-2.6-flash
```

***

## Рекомендации по GPU для Clore.ai

| Конфигурация                                         | VRAM   | Квант       | Ожидаемая производительность | Стоимость на Clore.ai |
| ---------------------------------------------------- | ------ | ----------- | ---------------------------- | --------------------- |
| 1× [RTX 3090](https://clore.ai/rent-3090.html)       | 24GB   | INT4 GGUF   | \~60–90 ток/с                | **\~$0,33–1,24/ч**    |
| 1× [RTX 4090](https://clore.ai/rent-4090.html)       | 24GB   | INT4 GGUF   | \~80–120 ток/с               | **\~$0,70–2,50/ч**    |
| 1× [A100 80GB](https://clore.ai/rent-a100-80gb.html) | 80GB   | FP8         | \~120–180 ток/с              | \~$2–4/ч              |
| 1× H100 80 ГБ                                        | 80GB   | FP8         | \~150–220 ток/с              | \~$6–8/ч              |
| 4× H100 80GB                                         | 320 ГБ | BF16 + TP=4 | \~340 ток/с (вендор)         | \~$24–32/ч            |

{% hint style="success" %}
**Лучшая цена/качество:** Одна RTX 4090 от $0,70/ч, работающая с Q4\_K\_M GGUF. Вы получаете дообученную под агентов модель MoE на 104 млрд параметров с лицензией MIT и контекстом 32K менее чем за цену чашки кофе в час. Именно под такой сценарий развёртывания и был создан потребительский GPU-маркетплейс Clore.ai.
{% endhint %}

***

## Сценарии использования

* **Агенты с вызовом инструментов** — настройка под BFCL-V4 и TAU2-bench означает, что структурированная диспетчеризация функций — это сильная сторона, а не второстепенная деталь.
* **Циклы многошагового планирования** — устойчивые цепочки вызовов инструментов без дрейфа, типичного для маленьких моделей.
* **Локальная замена Claude Code / OpenHands** — готовый к использованию OpenAI-совместимый API на вашей собственной RTX 4090.
* **Массовые пакетные агентные задачи** — 340 ток/с на 4×H100 делает это пригодным для обработки тысяч агентных транскриптов в час.
* **RAG с длинным контекстом** — нативный ctx 256K покрывает большинство корпоративных наборов документов в одном промпте.
* **Дешёвый dev-песочница для** [**Ling-2.5-1T**](/guides/guides_v2-ru/yazykovye-modeli/ling25.md) **рабочих процессов** — прототипируйте на flash, разворачивайте на варианте 1T.

***

## Бенчмарки

{% hint style="warning" %}
**Указано производителем — проверяйте независимо.** Все числа ниже взяты из model card inclusionAI от 28 апреля 2026 года. Модели всего один день; community-воспроизведения на BFCL-V4 и TAU2-bench ещё не опубликованы. Считайте это ориентиром, а не истиной в последней инстанции.
{% endhint %}

| Бенчмарк                      | Ling-2.6-flash (вендор) | Примечания                               |
| ----------------------------- | ----------------------- | ---------------------------------------- |
| BFCL-V4                       | SOTA для класса размера | Berkeley Function Calling Leaderboard v4 |
| TAU2-bench                    | SOTA для класса размера | Бенчмарк агента для инструментов v2      |
| SWE-bench Verified / Resolved | \~61.2%                 | Доля решённых задач в verified-сплите    |
| MathArena AIME 2026           | 73.85                   |                                          |
| MathArena HMMT февраль 2026   | 49.29                   |                                          |
| Пропускная способность        | \~340 ток/с             | 4× H20-3e, TP=4, batch 32                |

***

## Устранение неполадок

| Проблема                                           | Решение                                                                                                                                                                                                                                            |
| -------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` на RTX 4090                     | Переключитесь на Q4\_K\_S или Q3\_K\_M; уменьшите `--ctx-size` до 16384; закройте другие GPU-процессы                                                                                                                                              |
| GGUF пока нет на HuggingFace                       | Модели всего один день. Проверьте [unsloth](https://huggingface.co/unsloth), [bartowski](https://huggingface.co/bartowski), и [TheBloke](https://huggingface.co/TheBloke) зеркала; или самостоятельно квантуйте из BF16 с помощью `llama-quantize` |
| vLLM отвергает архитектуру                         | Убедитесь, что vLLM ≥ 0.7.x с `--trust-remote-code`; слои гибридного линейного внимания являются кастомными                                                                                                                                        |
| Вызовы инструментов возвращаются как обычный текст | Установите `--enable-auto-tool-choice --tool-call-parser hermes` в vLLM; SGLang обрабатывает это автоматически                                                                                                                                     |
| Медленный prefill на длинных контекстах            | Линейное внимание имеет overhead на прогрев; первый запрос всегда самый медленный. Используйте `--enable-chunked-prefill` в vLLM                                                                                                                   |
| Пропускная способность заметно ниже 340 ток/с      | Вендорское значение — это 4× H20 с TP=4 и batch 32. Один GPU + batch 1 естественно намного медленнее — это ожидаемо, не баг                                                                                                                        |
| Искажённый вывод при высокой температуре           | Опуститесь до `temperature=0.7` для чата, `0.1` для вызова инструментов                                                                                                                                                                            |

***

## Следующие шаги

* **Более крупный собрат:** [Ling-2.5-1T](/guides/guides_v2-ru/yazykovye-modeli/ling25.md) — та же семья, 1T всего / 63B активных, frontier-рассуждения при стоимости нескольких GPU
* **Похожий агент на одном GPU:** [MiMo-V2-Flash](/guides/guides_v2-ru/yazykovye-modeli/mimo-v2-flash.md) — 309B/15B активных со встроенным speculative decoding
* **Открытая альтернатива для кодинга:** [GLM-5.1](/guides/guides_v2-ru/yazykovye-modeli/glm-5-1.md) — 744B/40B активных, лидер SWE-Bench Pro
* **Дешёвые аренды GPU:** [Аренда RTX 4090 от $0,70/ч](https://clore.ai/rent-4090.html) или [RTX 3090 от $0,33/ч](https://clore.ai/rent-3090.html)
* **Маркетплейс Clore.ai:** [clore.ai/marketplace](https://clore.ai/marketplace) — полный каталог GPU с оплатой по запросу и спотовыми ценами

### Ссылки

* [Ling-2.6-flash на HuggingFace](https://huggingface.co/inclusionAI/Ling-2.6-flash)
* [организация inclusionAI](https://huggingface.co/inclusionAI) — open-source AI-лаборатория Ant Group
* [Репозиторий SGLang](https://github.com/sgl-project/sglang) — рекомендуемый фреймворк для обслуживания
* [Документация vLLM](https://docs.vllm.ai)
* [лидерборд BFCL-V4](https://gorilla.cs.berkeley.edu/leaderboard.html) — Berkeley Function Calling


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/ling-26-flash.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.