Ling-2.5-1T (1 trillion de paramètres)
Exécutez Ling-2.5-1T — le LLM open-source à 1 trillion de paramètres d'Ant Group avec attention linéaire hybride sur les GPU Clore.ai
Ling-2.5-1T par Ant Group (publié le 16 février 2026) est l'un des plus grands modèles de langage open source jamais publiés — 1 billion de paramètres au total avec 63B actifs. Il introduit une architecture d'attention linéaire hybride qui permet une inférence efficace sur des longueurs de contexte allant jusqu'à 1 million de tokens. Parallèlement, Ant Group a publié Ring-2.5-1T, le premier modèle de pensée au monde à architecture linéaire hybride. Ensemble, ils représentent une nouvelle frontière de l'IA open source — compétitifs avec GPT-5.2, DeepSeek V3.2 et Kimi K2.5 sur les benchmarks de raisonnement et d'agentivité.
HuggingFace : inclusionAI/Ling-2.5-1T Modèle compagnon : inclusionAI/Ring-2.5-1T (variante pensée/raisonnement) Licence : Open source (Licence Ant Group InclusionAI)
Principales caractéristiques
1 billion de paramètres au total, 63B actifs — échelle massive avec activation de type MoE efficace
Attention linéaire hybride — combine MLA (Multi-head Linear Attention) avec Lightning Linear Attention pour un débit exceptionnel sur de longues séquences
Fenêtre de contexte de 1M tokens — via l'extension YaRN depuis le natif 256K, gère des bases de code entières et des documents de la taille d'un livre
Raisonnement de pointe — approche les performances des modèles de pensée tout en utilisant ~4× moins de tokens de sortie
Capacités agentiques — entraîné avec Agentic RL, compatible avec Claude Code, OpenCode et OpenClaw
Compagnon Ring-2.5-1T — la variante dédiée au raisonnement atteint un niveau médaille d'or IMO 2025 et CMO 2025
Détails de l'architecture
Paramètres totaux
1T (1 000B)
Paramètres actifs
63B
Architecture
Attention linéaire hybride (MLA + Lightning Linear)
Données de pré-entraînement
29T tokens
Contexte natif
256K tokens
Contexte étendu
1M tokens (YaRN)
Date de sortie
16 février 2026
Exigences
Exécuter Ling-2.5-1T en pleine précision nécessite des ressources substantielles. Les versions quantifiées le rendent plus accessible.
GPU
8× RTX 4090
8× H100 80GB
16× H100 80GB
VRAM
8×24GB (192GB)
8×80GB (640GB)
16×80GB (1,28TB)
RAM
256GB
512GB
1TB
Disque
600GB
1,2TB
2TB+
CUDA
12.0+
12.0+
12.0+
Configuration Clore.ai recommandée :
Quantifié (Q4) : 8× RTX 4090 (~4–16 $/jour) — utilisable pour l'expérimentation et des charges modérées
Production (FP8) : 8× H100 (~24–48 $/jour) — qualité complète avec un bon débit
Remarque : Ceci est un modèle extrêmement grand. Pour les utilisateurs soucieux du budget, envisagez les modèles plus petits de la famille Ling sur HuggingFace.
Démarrage rapide avec vLLM
vLLM est le framework de service recommandé pour Ling-2.5-1T :
Démarrage rapide avec llama.cpp (Quantifié)
Pour les configurations GPU grand public, des quantifications GGUF sont disponibles :
Exemples d'utilisation
1. Complétion de conversation via l'API OpenAI
Une fois vLLM ou llama-server en cours d'exécution :
2. Analyse de documents longue portée
L'attention linéaire hybride de Ling-2.5-1T le rend exceptionnellement efficace pour les longs documents :
3. Utilisation agentique des outils
Ling-2.5-1T est entraîné avec Agentic RL pour l'appel d'outils :
Ling-2.5-1T vs Ring-2.5-1T
Type
Modèle instantané (rapide)
Modèle de pensée (raisonnement)
Architecture
Attention linéaire hybride
Attention linéaire hybride
Idéal pour
Chat général, codage, tâches agentiques
Maths, raisonnement formel, problèmes complexes
Style de sortie
Réponses directes
Raisonnement en chaîne de pensée
Efficacité des tokens
Élevée (moins de tokens de sortie)
Utilise plus de tokens pour le raisonnement
IMO 2025
Compétitif
Niveau médaille d'or
Conseils pour les utilisateurs de Clore.ai
Ce modèle nécessite du matériel sérieux — À 1T de paramètres, même la quantification Q4 nécessite ~500GB de stockage et 192GB+ de VRAM. Assurez-vous que votre instance Clore.ai dispose d'un disque et de multi-GPU suffisants avant le téléchargement.
Commencez par
--max-model-len 8192— Lors des premiers tests, utilisez un contexte court pour vérifier que le modèle se charge et fonctionne correctement. Augmentez la longueur du contexte une fois que tout fonctionne.Utilisez un stockage persistant — Le modèle pèse 1–2TB. Attachez un grand volume persistant sur Clore.ai pour éviter de retélécharger. Téléchargez une fois avec
huggingface-cli download.Envisagez Ring-2.5-1T pour les tâches de raisonnement — Si votre cas d'utilisation est principalement les mathématiques, la logique ou le raisonnement formel, le modèle compagnon Ring-2.5-1T est spécifiquement optimisé pour le raisonnement en chaîne de pensée.
Surveillez la mémoire GPU — Avec des configurations 8-GPU, utilisez
nvidia-smi -l 1pour surveiller l'utilisation de la mémoire et surveiller les OOM pendant la génération avec de longs contextes.
Dépannage
CUDA out of memory
Réduire --max-model-len; assurez-vous --tensor-parallel-size corresponde au nombre de GPU ; essayez --gpu-memory-utilization 0.95
Génération très lente
L'attention linéaire nécessite un échauffement ; les premières requêtes peuvent être lentes. Vérifiez aussi que vous avez NVLink entre les GPU
Échec du téléchargement du modèle
Le modèle fait ~2TB en BF16. Assurez-vous d'avoir suffisamment d'espace disque. Utilisez --resume-download le flag avec huggingface-cli
vLLM ne prend pas en charge l'architecture
Assurez-vous d'utiliser vLLM ≥0.7.0 avec --trust-remote-code; les couches d'attention personnalisées nécessitent ce flag
GGUF non disponible
Vérifiez unsloth ou les quantifications communautaires ; il se peut que le modèle prenne du temps avant d'être quantifié par la communauté
Réponses de mauvaise qualité
Utilisez une température ≤0.1 pour les tâches factuelles ; ajoutez une invitation système ; assurez-vous de ne pas tronquer le contexte
Lectures complémentaires
Annonce officielle (BusinessWire) — détails de la sortie et benchmarks
HuggingFace — Ling-2.5-1T — poids du modèle et documentation
HuggingFace — Ring-2.5-1T — Modèle compagnon de pensée
Miroir ModelScope — Téléchargements plus rapides en Asie
Documentation vLLM — Framework de service
Mis à jour
Ce contenu vous a-t-il été utile ?