> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/ling-26-flash.md).

# Ling-2.6-flash (Ant Group 104B MoE)

{% hint style="info" %}
**Statut (29 avril 2026) :** Ling-2.6-flash a été publié par le groupe Ant **inclusionAI** équipe le **28 avril 2026** (un jour auparavant au moment de la rédaction). C’est le petit frère rapide, affiné pour les agents, de [Ling-2.5-1T](/guides/guides_v2-fr/modeles-de-langage/ling25.md) — même lignée, même ADN d’attention linéaire hybride, mais avec seulement **7,4 milliards de paramètres actifs** sur un MoE sparse de 104 milliards. Les poids sont disponibles sur [huggingface.co/inclusionAI/Ling-2.6-flash](https://huggingface.co/inclusionAI/Ling-2.6-flash) sous la **licence MIT**.
{% endhint %}

Là où [Ling-2.5-1T](/guides/guides_v2-fr/modeles-de-langage/ling25.md) nécessitait une baie de 8 GPU pour simplement démarrer, Ling-2.6-flash est la **première version d’inclusionAI qui tient sur un seul GPU grand public**. Le chemin actif de 7,4 milliards signifie que vous payez le coût d’inférence d’un modèle dense de 8 milliards tout en exploitant un pool de 104 milliards de paramètres — et Ant Group a réglé ce pool spécifiquement pour **les flux de travail agentiques**: appel d’outils, planification en plusieurs étapes et dispatch structuré de fonctions.

Les chiffres publiés par le fournisseur placent Ling-2.6-flash en SOTA sur **BFCL-V4** et des **TAU2-bench** pour sa catégorie de taille, avec un débit d’environ **340 tok/s sur 4× H20** dans la configuration officielle du benchmark. Pour les utilisateurs de Clore.ai, la ligne la plus intéressante est bien plus petite : **INT4 tient confortablement sur une seule RTX 4090 (24 Go)** avec de la marge pour un contexte de 32K+, et **FP8 tient sur une seule H100 80 Go**. Cela place un petit modèle de pointe, récemment affiné pour les agents, à environ 0,70–2,50 $/h sur le [marketplace Clore.ai](https://clore.ai/marketplace).

### Spécifications clés

| Propriété           | Valeur                                                           |
| ------------------- | ---------------------------------------------------------------- |
| Paramètres totaux   | 104B (MoE)                                                       |
| Paramètres actifs   | 7,4 milliards par passe avant                                    |
| Architecture        | attention hybride 1:7 MLA + Linear Lightning                     |
| Fenêtre de contexte | 262 144 jetons                                                   |
| Quantifications     | BF16, FP8, INT4                                                  |
| Licence             | MIT                                                              |
| Date de publication | 28 avril 2026                                                    |
| Organisation        | Ant Group — inclusionAI                                          |
| Outillage principal | SGLang (recommandé), vLLM, llama.cpp/Ollama (GGUF communautaire) |

### Pourquoi Ling-2.6-flash ?

* **Déployable sur un seul GPU** — INT4 sur une seule [RTX 4090](https://clore.ai/rent-4090.html) ou [RTX 3090](https://clore.ai/rent-3090.html), FP8 sur une seule H100. Pas de casse-tête multi-GPU, pas de gymnastique NVLink.
* **Affiné pour les agents** — entraîné explicitement pour les boucles d’appel d’outils de type BFCL-V4 / TAU2-bench, pas seulement évalué a posteriori sur ces benchmarks.
* **Qualité MoE sparse au coût actif de 7,4 milliards** — vous obtenez un pool de connaissances de 104 milliards de paramètres via un chemin d’inférence de 7,4 milliards.
* **Contexte 256K prêt à l’emploi** — 262K jetons natifs, sans astuces YaRN nécessaires pour de longues traces agentiques.
* **licence MIT** — entièrement commercial, ajustable, redistribuable.
* **Lignée** — descendant direct de [Ling-2.5-1T](/guides/guides_v2-fr/modeles-de-langage/ling25.md) et Ring-2.5 ; l’architecture a fait ses preuves au combat.

***

## Exigences

{% hint style="success" %}
**Adapté à Clore.** C’est le premier modèle de la gamme inclusionAI qui fonctionne sur un seul GPU grand public. Si vous n’aviez pas les moyens de [Ling-2.5-1T](/guides/guides_v2-fr/modeles-de-langage/ling25.md) ou [GLM-5.1](/guides/guides_v2-fr/modeles-de-langage/glm-5-1.md), c’est le point d’entrée.
{% endhint %}

| Composant         | INT4 (un seul 24 Go)       | FP8 (un seul 80 Go)  | BF16 (qualité complète)         |
| ----------------- | -------------------------- | -------------------- | ------------------------------- |
| VRAM GPU          | 1× RTX 4090 / 3090 (24 Go) | 1× H100 / A100 80 Go | 2× A100 80 Go ou 1× H200 141 Go |
| RAM               | 32 Go                      | 64 Go                | 128 Go                          |
| Disque            | 60 Go NVMe                 | 120 Go NVMe          | 220 Go NVMe                     |
| CUDA              | 12.0+                      | 12.4+                | 12.4+                           |
| Contexte pratique | 32K–64K                    | 128K                 | 256K                            |

**Choix Clore.ai :** Pour la plupart des charges de travail agentiques, une seule [RTX 4090 (\~0,70–2,50 $/h)](https://clore.ai/rent-4090.html) exécutant un GGUF INT4 est imbattable en prix. Passez à une seule H100 si vous avez besoin d’une qualité FP8 ou d’un contexte 128K+.

***

## Option A — Ollama / GGUF (quantifié, GPU unique)

C’est l’option que la plupart des utilisateurs de Clore.ai voudront. Les GGUF communautaires apparaissent généralement sur HuggingFace quelques jours après une sortie d’inclusionAI.

{% hint style="warning" %}
**À savoir dès le premier jour :** Ling-2.6-flash est sorti le 28 avril 2026. Au moment d’écrire ces lignes, les quantifications communautaires GGUF sont peut-être encore en cours d’arrivée. Surveillez [huggingface.co/models?search=ling-2.6-flash+gguf](https://huggingface.co/models?search=ling-2.6-flash+gguf) et des [unsloth](https://huggingface.co/unsloth) pour les premières versions. Si `ollama pull` renvoie 404, pointez llama.cpp directement vers le fichier GGUF.
{% endhint %}

```bash
# Une fois qu’une version communautaire Q4_K_M est publiée
docker exec ollama ollama pull ling-2.6-flash:q4_K_M
docker exec ollama ollama run ling-2.6-flash:q4_K_M

# Ou avec llama.cpp directement sur un GGUF téléchargé
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/ling-2.6-flash-q4_k_m.gguf \
  --n-gpu-layers 99 --ctx-size 32768 \
  --port 8080 --host 0.0.0.0
```

Une seule RTX 4090 devrait atteindre **\~80–120 tok/s** sur Q4\_K\_M avec un contexte de 32K — largement suffisant pour un travail agentique interactif.

***

## Option B — vLLM (API de production)

vLLM est l’outil de référence pour servir Ling-2.6-flash à plusieurs agents simultanés. Utilisez le checkpoint FP8 sur une seule H100 / A100 80 Go :

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model inclusionAI/Ling-2.6-flash-FP8
      --tensor-parallel-size 1
      --max-model-len 65536
      --gpu-memory-utilization 0.90
      --enable-auto-tool-choice
      --tool-call-parser hermes
      --served-model-name ling-2.6-flash
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Testez le chemin agentique
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "ling-2.6-flash",
    "messages": [
      {"role": "system", "content": "Vous êtes un agent avec accès à des outils. Planifiez, appelez les outils, puis répondez."},
      {"role": "user", "content": "Trouvez-moi la RTX 4090 la moins chère sur Clore.ai en ce moment."}
    ],
    "tools": [{"type": "function", "function": {"name": "search_marketplace", "parameters": {"type":"object","properties":{"gpu":{"type":"string"}}}}}],
    "tool_choice": "auto",
    "max_tokens": 2048
  }'
```

{% hint style="info" %}
Pour une qualité BF16 complète sur de longs contextes (200K+), faites tourner `--tensor-parallel-size 2` sur 2× A100 80 Go ou fixez sur une seule H200 141 Go.
{% endhint %}

***

## Option C — SGLang (recommandé pour un débit maximal)

SGLang est ce qu’Ant Group utilise pour le benchmark officiel à 340 tok/s — le chemin d’attention linéaire hybride est le plus rapide dans le runtime de SGLang.

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \
  --model-path inclusionAI/Ling-2.6-flash-FP8 \
  --tp-size 1 \\
  --tool-call-parser hermes \
  --mem-fraction-static 0.90 \
  --context-length 65536 \
  --served-model-name ling-2.6-flash \
  --host 0.0.0.0 --port 30000

# Pour reproduire le chiffre du fournisseur de 340 tok/s (nécessite 4× H20 / classe H100)
python3 -m sglang.launch_server \
  --model-path inclusionAI/Ling-2.6-flash \
  --tp-size 4 \
  --mem-fraction-static 0.92 \
  --context-length 32768 \
  --served-model-name ling-2.6-flash
```

***

## Recommandations GPU Clore.ai

| Configuration                                         | VRAM   | Quant       | Débit attendu             | Coût Clore.ai       |
| ----------------------------------------------------- | ------ | ----------- | ------------------------- | ------------------- |
| 1× [RTX 3090](https://clore.ai/rent-3090.html)        | 24 Go  | GGUF INT4   | \~60–90 tok/s             | **\~0,33–1,24 $/h** |
| 1× [RTX 4090](https://clore.ai/rent-4090.html)        | 24 Go  | GGUF INT4   | \~80–120 tok/s            | **\~0,70–2,50 $/h** |
| 1× [A100 80 Go](https://clore.ai/rent-a100-80gb.html) | 80 Go  | FP8         | \~120–180 tok/s           | \~2–4 $/h           |
| 1× H100 80 Go                                         | 80 Go  | FP8         | \~150–220 tok/s           | \~6–8 $/h           |
| 4× H100 80 Go                                         | 320 Go | BF16 + TP=4 | \~340 tok/s (fournisseur) | \~24–32 $/h         |

{% hint style="success" %}
**Meilleur rapport qualité-prix :** Une seule RTX 4090 à partir de 0,70 $/h exécutant le GGUF Q4\_K\_M. Vous obtenez un modèle MoE de 104 milliards, affiné pour les agents, sous licence MIT, avec un contexte de 32K pour moins qu’un café par heure. C’est exactement le format de déploiement pour lequel la marketplace de GPU grand public de Clore.ai a été conçue.
{% endhint %}

***

## Cas d’usage

* **Agents avec appel d’outils** — l’optimisation BFCL-V4 et TAU2-bench signifie que le dispatch structuré de fonctions est un point fort, pas une réflexion après coup.
* **Boucles de planification en plusieurs étapes** — des traces soutenues d’enchaînements d’appels d’outils sans la dérive typique des petits modèles.
* **Remplacement local de Claude Code / OpenHands** — API compatible OpenAI prête à l’emploi sur votre propre RTX 4090.
* **Tâches agentiques par lots à grand volume** — 340 tok/s sur 4×H100 rendent cela viable pour traiter des milliers de transcriptions d’agents par heure.
* **RAG à long contexte** — le contexte natif de 256K couvre la plupart des ensembles de documents d’entreprise en un seul prompt.
* **Bac à sable de dev peu coûteux pour** [**Ling-2.5-1T**](/guides/guides_v2-fr/modeles-de-langage/ling25.md) **flux de travail** — prototypez sur flash, déployez sur la variante 1T.

***

## Benchmarks

{% hint style="warning" %}
**Données revendiquées par le fournisseur — à vérifier indépendamment.** Tous les chiffres ci-dessous proviennent de la fiche modèle d’inclusionAI du 28 avril 2026. Le modèle n’a qu’un jour ; les reproductions communautaires sur BFCL-V4 et TAU2-bench n’ont pas encore été publiées. Considérez-les comme indicatifs, pas comme parole d’évangile.
{% endhint %}

| Benchmark                  | Ling-2.6-flash (fournisseur)     | Remarques                                       |
| -------------------------- | -------------------------------- | ----------------------------------------------- |
| BFCL-V4                    | SOTA pour la catégorie de taille | Classement des appels de fonctions Berkeley v4  |
| TAU2-bench                 | SOTA pour la catégorie de taille | Benchmark d’agent d’outils v2                   |
| SWE-bench Vérifié / Résolu | \~61.2%                          | Taux de résolution sur le sous-ensemble vérifié |
| MathArena AIME 2026        | 73.85                            |                                                 |
| MathArena HMMT fév. 2026   | 49.29                            |                                                 |
| Débit                      | \~340 tok/s                      | 4× H20-3e, TP=4, batch 32                       |

***

## Dépannage

| Problème                                   | Solution                                                                                                                                                                                                                                              |
| ------------------------------------------ | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` sur RTX 4090            | Passez à Q4\_K\_S ou Q3\_K\_M ; réduisez `--ctx-size` à 16384 ; fermez les autres processus GPU                                                                                                                                                       |
| GGUF pas encore sur HuggingFace            | Le modèle n’a qu’un jour. Vérifiez [unsloth](https://huggingface.co/unsloth), [bartowski](https://huggingface.co/bartowski), et [TheBloke](https://huggingface.co/TheBloke) mirroirs ; ou quantifiez vous-même à partir de BF16 avec `llama-quantize` |
| vLLM rejette l’architecture                | Assurez-vous d’avoir vLLM ≥ 0.7.x avec `--trust-remote-code`; les couches d’attention linéaire hybride sont personnalisées                                                                                                                            |
| Appels d’outils renvoyés en texte brut     | Définissez `--enable-auto-tool-choice --tool-call-parser hermes` dans vLLM ; SGLang gère cela automatiquement                                                                                                                                         |
| Préremplissage lent sur de longs contextes | L’attention linéaire a un surcoût de démarrage ; la première requête est toujours la plus lente. Utilisez `--enable-chunked-prefill` dans vLLM                                                                                                        |
| Débit bien inférieur à 340 tok/s           | Le chiffre du fournisseur correspond à 4× H20 avec TP=4 et batch 32. GPU unique + batch 1 est naturellement bien plus lent — c’est attendu, pas un bug                                                                                                |
| Sortie brouillée à haute température       | Descendez à `temperature=0.7` pour le chat, `0.1` pour l’appel d’outils                                                                                                                                                                               |

***

## Étapes suivantes

* **Grand frère :** [Ling-2.5-1T](/guides/guides_v2-fr/modeles-de-langage/ling25.md) — même famille, 1T au total / 63B actifs, raisonnement de pointe avec coût multi-GPU
* **Agent similaire sur GPU unique :** [MiMo-V2-Flash](/guides/guides_v2-fr/modeles-de-langage/mimo-v2-flash.md) — 309B/15B actifs avec décodage spéculatif intégré
* **Alternative de code à poids ouverts :** [GLM-5.1](/guides/guides_v2-fr/modeles-de-langage/glm-5-1.md) — 744B/40B actifs, leader SWE-Bench Pro
* **Locations de GPU bon marché :** [Louer une RTX 4090 à partir de 0,70 $/h](https://clore.ai/rent-4090.html) ou [RTX 3090 à partir de 0,33 $/h](https://clore.ai/rent-3090.html)
* **Marketplace Clore.ai :** [clore.ai/marketplace](https://clore.ai/marketplace) — catalogue complet de GPU avec tarification à la demande et au marché spot

### Liens

* [Ling-2.6-flash sur HuggingFace](https://huggingface.co/inclusionAI/Ling-2.6-flash)
* [organisation inclusionAI](https://huggingface.co/inclusionAI) — laboratoire d’IA open source du groupe Ant
* [Dépôt SGLang](https://github.com/sgl-project/sglang) — framework d’inférence recommandé
* [Documentation vLLM](https://docs.vllm.ai)
* [classement BFCL-V4](https://gorilla.cs.berkeley.edu/leaderboard.html) — Berkeley Function Calling


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/ling-26-flash.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.