Ling-2.5-1T (1 billón de parámetros)
Ejecuta Ling-2.5-1T — el LLM de código abierto de 1 billón de parámetros de Ant Group con atención lineal híbrida en GPUs de Clore.ai
Ling-2.5-1T de Ant Group (lanzado el 16 de febrero de 2026) es uno de los modelos de lenguaje de código abierto más grandes jamás publicados — 1 billón de parámetros en total con 63B activos. Introduce una arquitectura híbrida de atención lineal que permite una inferencia eficiente en longitudes de contexto de hasta 1 millón de tokens. Junto a él, Ant Group lanzó Ring-2.5-1T, el primer modelo pensante del mundo con arquitectura lineal híbrida. Juntos representan una nueva frontera en la IA de código abierto — competitivos con GPT-5.2, DeepSeek V3.2 y Kimi K2.5 en benchmarks de razonamiento y capacidad agentiva.
HuggingFace: inclusionAI/Ling-2.5-1T Modelo acompañante: inclusionAI/Ring-2.5-1T (variante pensante/razonadora) Licencia: Código abierto (Licencia Ant Group InclusionAI)
Características clave
1 billón de parámetros en total, 63B activos — escala masiva con activación eficiente estilo MoE
Atención lineal híbrida — combina MLA (Atención Lineal Multi-cabeza) con Lightning Linear Attention para un rendimiento excepcional en secuencias largas
Ventana de contexto de 1M tokens — mediante la extensión YaRN desde el nativo de 256K, maneja bases de código completas y documentos del tamaño de libros
Razonamiento de vanguardia — se aproxima al rendimiento de modelos pensantes mientras usa ~4× menos tokens de salida
Capacidades agente — entrenado con RL agentivo, compatible con Claude Code, OpenCode y OpenClaw
Compañero Ring-2.5-1T — la variante dedicada al razonamiento alcanza nivel de medalla de oro en IMO 2025 y CMO 2025
Detalles de la arquitectura
Parámetros totales
1T (1.000B)
Parámetros activos
63B
Arquitectura
Atención lineal híbrida (MLA + Lightning Linear)
Datos de preentrenamiento
29T tokens
Contexto nativo
256K tokens
Contexto extendido
1M tokens (YaRN)
Fecha de lanzamiento
16 de febrero de 2026
Requisitos
Ejecutar Ling-2.5-1T en precisión completa requiere recursos sustanciales. Las versiones cuantizadas lo hacen más accesible.
GPU
8× RTX 4090
8× H100 80GB
16× H100 80GB
VRAM
8×24GB (192GB)
8×80GB (640GB)
16×80GB (1.28TB)
RAM
256GB
512GB
1TB
Disco
600GB
1.2TB
2TB+
CUDA
12.0+
12.0+
12.0+
Configuración recomendada para Clore.ai:
Cuantizado (Q4): 8× RTX 4090 (~$4–16/día) — usable para experimentación y cargas de trabajo moderadas
Producción (FP8): 8× H100 (~$24–48/día) — calidad completa con buen rendimiento
Nota: Este es un modelo extremadamente grande. Para usuarios con presupuesto limitado, considere los modelos más pequeños de la familia Ling en HuggingFace.
Inicio rápido con vLLM
vLLM es el framework de servicio recomendado para Ling-2.5-1T:
Inicio rápido con llama.cpp (Cuantizado)
Para configuraciones con GPU de consumo, hay cuantizaciones GGUF disponibles:
Ejemplos de uso
1. Completado de chat vía API de OpenAI
Una vez que vLLM o llama-server estén en funcionamiento:
2. Análisis de documentos de largo contexto
La atención lineal híbrida de Ling-2.5-1T lo hace excepcionalmente eficiente para documentos largos:
3. Uso agentivo de herramientas
Ling-2.5-1T está entrenado con RL agentivo para llamadas a herramientas:
Ling-2.5-1T vs Ring-2.5-1T
Tipo
Modelo instantáneo (rápido)
Modelo pensante (razonador)
Arquitectura
Atención lineal híbrida
Atención lineal híbrida
Mejor para
Chat general, programación, tareas agentivas
Matemáticas, razonamiento formal, problemas complejos
Estilo de salida
Respuestas directas
Razonamiento en cadena de pensamiento
Eficiencia de tokens
Alta (menos tokens de salida)
Usa más tokens para razonar
IMO 2025
Competitivo
Nivel de medalla de oro
Consejos para usuarios de Clore.ai
Este modelo necesita hardware serio — Con 1T de parámetros, incluso la cuantización Q4 requiere ~500GB de almacenamiento y 192GB+ de VRAM. Asegúrese de que su instancia de Clore.ai tenga suficiente disco y multi-GPU antes de descargar.
Comience con
--max-model-len 8192— Al probar por primera vez, utilice un contexto corto para verificar que el modelo se cargue y funcione correctamente. Aumente la longitud del contexto una vez que todo funcione.Use almacenamiento persistente — El modelo pesa 1–2TB. Adjunte un volumen persistente grande en Clore.ai para evitar volver a descargarlo. Descargue una vez con
huggingface-cli download.Considere Ring-2.5-1T para tareas de razonamiento — Si su caso de uso es principalmente matemáticas, lógica o razonamiento formal, el modelo acompañante Ring-2.5-1T está específicamente optimizado para razonamiento en cadena de pensamiento.
Monitoree la memoria GPU — Con configuraciones de 8 GPUs, use
nvidia-smi -l 1para monitorear el uso de memoria y vigilar OOM durante la generación con contextos largos.
Solución de problemas
CUDA fuera de memoria
Reducir --max-model-len; asegúrese --tensor-parallel-size coincida con la cantidad de GPUs; pruebe --gpu-memory-utilization 0.95
Generación muy lenta
La atención lineal necesita calentamiento; las primeras solicitudes pueden ser lentas. También verifique que tenga NVLink entre GPUs
Fallo en la descarga del modelo
El modelo tiene ~2TB en BF16. Asegure suficiente espacio en disco. Use --resume-download bandera con huggingface-cli
vLLM no soporta la arquitectura
Asegúrese de estar usando vLLM ≥0.7.0 con --trust-remote-code; las capas de atención personalizadas requieren esta bandera
GGUF no disponible
Verifique unsloth o cuantizaciones comunitarias; el modelo puede tardar en ser cuantizado por la comunidad
Respuestas de baja calidad
Use temperatura ≤0.1 para tareas factuales; agregue un prompt de sistema; asegúrese de no truncar el contexto
Lecturas adicionales
Anuncio oficial (BusinessWire) — Detalles del lanzamiento y benchmarks
HuggingFace — Ling-2.5-1T — Pesos del modelo y documentación
HuggingFace — Ring-2.5-1T — Modelo acompañante pensante
Mirror de ModelScope — Descargas más rápidas en Asia
Documentación vLLM — Framework de servicio
Última actualización
¿Te fue útil?