Ling-2.5-1T (1 trillion de paramètres)

Exécutez Ling-2.5-1T — le LLM open-source à 1 trillion de paramètres d'Ant Group avec attention linéaire hybride sur les GPU Clore.ai

Ling-2.5-1T par Ant Group (publié le 16 février 2026) est l'un des plus grands modèles de langage open source jamais publiés — 1 billion de paramètres au total avec 63B actifs. Il introduit une architecture d'attention linéaire hybride qui permet une inférence efficace sur des longueurs de contexte allant jusqu'à 1 million de tokens. Parallèlement, Ant Group a publié Ring-2.5-1T, le premier modèle de pensée au monde à architecture linéaire hybride. Ensemble, ils représentent une nouvelle frontière de l'IA open source — compétitifs avec GPT-5.2, DeepSeek V3.2 et Kimi K2.5 sur les benchmarks de raisonnement et d'agentivité.

HuggingFace : inclusionAI/Ling-2.5-1Tarrow-up-right Modèle compagnon : inclusionAI/Ring-2.5-1Tarrow-up-right (variante pensée/raisonnement) Licence : Open source (Licence Ant Group InclusionAI)

Principales caractéristiques

  • 1 billion de paramètres au total, 63B actifs — échelle massive avec activation de type MoE efficace

  • Attention linéaire hybride — combine MLA (Multi-head Linear Attention) avec Lightning Linear Attention pour un débit exceptionnel sur de longues séquences

  • Fenêtre de contexte de 1M tokens — via l'extension YaRN depuis le natif 256K, gère des bases de code entières et des documents de la taille d'un livre

  • Raisonnement de pointe — approche les performances des modèles de pensée tout en utilisant ~4× moins de tokens de sortie

  • Capacités agentiques — entraîné avec Agentic RL, compatible avec Claude Code, OpenCode et OpenClaw

  • Compagnon Ring-2.5-1T — la variante dédiée au raisonnement atteint un niveau médaille d'or IMO 2025 et CMO 2025

Détails de l'architecture

Composant
Détails

Paramètres totaux

1T (1 000B)

Paramètres actifs

63B

Architecture

Attention linéaire hybride (MLA + Lightning Linear)

Données de pré-entraînement

29T tokens

Contexte natif

256K tokens

Contexte étendu

1M tokens (YaRN)

Date de sortie

16 février 2026

Exigences

Exécuter Ling-2.5-1T en pleine précision nécessite des ressources substantielles. Les versions quantifiées le rendent plus accessible.

Configuration
Quantifié (Q4 GGUF)
FP8
BF16 (Complet)

GPU

8× RTX 4090

8× H100 80GB

16× H100 80GB

VRAM

8×24GB (192GB)

8×80GB (640GB)

16×80GB (1,28TB)

RAM

256GB

512GB

1TB

Disque

600GB

1,2TB

2TB+

CUDA

12.0+

12.0+

12.0+

Configuration Clore.ai recommandée :

  • Quantifié (Q4) : 8× RTX 4090 (~4–16 $/jour) — utilisable pour l'expérimentation et des charges modérées

  • Production (FP8) : 8× H100 (~24–48 $/jour) — qualité complète avec un bon débit

  • Remarque : Ceci est un modèle extrêmement grand. Pour les utilisateurs soucieux du budget, envisagez les modèles plus petits de la famille Ling sur HuggingFacearrow-up-right.

Démarrage rapide avec vLLM

vLLM est le framework de service recommandé pour Ling-2.5-1T :

Démarrage rapide avec llama.cpp (Quantifié)

Pour les configurations GPU grand public, des quantifications GGUF sont disponibles :

Exemples d'utilisation

1. Complétion de conversation via l'API OpenAI

Une fois vLLM ou llama-server en cours d'exécution :

2. Analyse de documents longue portée

L'attention linéaire hybride de Ling-2.5-1T le rend exceptionnellement efficace pour les longs documents :

3. Utilisation agentique des outils

Ling-2.5-1T est entraîné avec Agentic RL pour l'appel d'outils :

Ling-2.5-1T vs Ring-2.5-1T

Aspect
Ling-2.5-1T
Ring-2.5-1T

Type

Modèle instantané (rapide)

Modèle de pensée (raisonnement)

Architecture

Attention linéaire hybride

Attention linéaire hybride

Idéal pour

Chat général, codage, tâches agentiques

Maths, raisonnement formel, problèmes complexes

Style de sortie

Réponses directes

Raisonnement en chaîne de pensée

Efficacité des tokens

Élevée (moins de tokens de sortie)

Utilise plus de tokens pour le raisonnement

IMO 2025

Compétitif

Niveau médaille d'or

Conseils pour les utilisateurs de Clore.ai

  1. Ce modèle nécessite du matériel sérieux — À 1T de paramètres, même la quantification Q4 nécessite ~500GB de stockage et 192GB+ de VRAM. Assurez-vous que votre instance Clore.ai dispose d'un disque et de multi-GPU suffisants avant le téléchargement.

  2. Commencez par --max-model-len 8192 — Lors des premiers tests, utilisez un contexte court pour vérifier que le modèle se charge et fonctionne correctement. Augmentez la longueur du contexte une fois que tout fonctionne.

  3. Utilisez un stockage persistant — Le modèle pèse 1–2TB. Attachez un grand volume persistant sur Clore.ai pour éviter de retélécharger. Téléchargez une fois avec huggingface-cli download.

  4. Envisagez Ring-2.5-1T pour les tâches de raisonnement — Si votre cas d'utilisation est principalement les mathématiques, la logique ou le raisonnement formel, le modèle compagnon Ring-2.5-1T est spécifiquement optimisé pour le raisonnement en chaîne de pensée.

  5. Surveillez la mémoire GPU — Avec des configurations 8-GPU, utilisez nvidia-smi -l 1 pour surveiller l'utilisation de la mémoire et surveiller les OOM pendant la génération avec de longs contextes.

Dépannage

Problème
Solution

CUDA out of memory

Réduire --max-model-len; assurez-vous --tensor-parallel-size corresponde au nombre de GPU ; essayez --gpu-memory-utilization 0.95

Génération très lente

L'attention linéaire nécessite un échauffement ; les premières requêtes peuvent être lentes. Vérifiez aussi que vous avez NVLink entre les GPU

Échec du téléchargement du modèle

Le modèle fait ~2TB en BF16. Assurez-vous d'avoir suffisamment d'espace disque. Utilisez --resume-download le flag avec huggingface-cli

vLLM ne prend pas en charge l'architecture

Assurez-vous d'utiliser vLLM ≥0.7.0 avec --trust-remote-code; les couches d'attention personnalisées nécessitent ce flag

GGUF non disponible

Vérifiez unslotharrow-up-right ou les quantifications communautaires ; il se peut que le modèle prenne du temps avant d'être quantifié par la communauté

Réponses de mauvaise qualité

Utilisez une température ≤0.1 pour les tâches factuelles ; ajoutez une invitation système ; assurez-vous de ne pas tronquer le contexte

Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?