Ling-2.5-1T (1 billón de parámetros)

Ejecuta Ling-2.5-1T: LLM open-source de 1 billón de parámetros de Ant Group con atención lineal híbrida en las GPU de Clore.ai

Ling-2.5-1T de Ant Group (lanzado el 16 de febrero de 2026) es uno de los modelos de lenguaje de código abierto más grandes jamás publicados — 1 billón de parámetros en total con 63B activos. Introduce una arquitectura híbrida de atención lineal que permite una inferencia eficiente en longitudes de contexto de hasta 1 millón de tokens. Junto a él, Ant Group lanzó Ring-2.5-1T, el primer modelo pensante del mundo con arquitectura lineal híbrida. Juntos representan una nueva frontera en la IA de código abierto — competitivos con GPT-5.2, DeepSeek V3.2 y Kimi K2.5 en benchmarks de razonamiento y capacidad agentiva.

HuggingFace: inclusionAI/Ling-2.5-1T Modelo acompañante: inclusionAI/Ring-2.5-1T (variante pensante/razonadora) Licencia: Código abierto (Licencia Ant Group InclusionAI)

Características clave

1 billón de parámetros en total, 63B activos — escala masiva con activación eficiente estilo MoE
Atención lineal híbrida — combina MLA (Atención Lineal Multi-cabeza) con Lightning Linear Attention para un rendimiento excepcional en secuencias largas
Ventana de contexto de 1M tokens — mediante la extensión YaRN desde el nativo de 256K, maneja bases de código completas y documentos del tamaño de libros
Razonamiento de vanguardia — se aproxima al rendimiento de modelos pensantes mientras usa ~4× menos tokens de salida
Capacidades agente — entrenado con RL agentivo, compatible con Claude Code, OpenCode y OpenClaw
Compañero Ring-2.5-1T — la variante dedicada al razonamiento alcanza nivel de medalla de oro en IMO 2025 y CMO 2025

Detalles de la arquitectura

Componente

Detalles

Parámetros totales

1T (1.000B)

Parámetros activos

63B

Arquitectura

Atención lineal híbrida (MLA + Lightning Linear)

Datos de preentrenamiento

29T tokens

Contexto nativo

256K tokens

Contexto extendido

1M tokens (YaRN)

Fecha de lanzamiento

16 de febrero de 2026

Requisitos

Ejecutar Ling-2.5-1T en precisión completa requiere recursos sustanciales. Las versiones cuantizadas lo hacen más accesible.

Configuración

Cuantizado (Q4 GGUF)

FP8

BF16 (Completo)

GPU

8× RTX 4090

8× H100 80GB

16× H100 80GB

VRAM

8×24GB (192GB)

8×80GB (640GB)

16×80GB (1.28TB)

RAM

256GB

512GB

1TB

Disco

600GB

1.2TB

2TB+

CUDA

12.0+

Configuración recomendada para Clore.ai:

Cuantizado (Q4): 8× RTX 4090 (~$4–16/día) — usable para experimentación y cargas de trabajo moderadas
Producción (FP8): 8× H100 (~$24–48/día) — calidad completa con buen rendimiento
Nota: Este es un modelo extremadamente grande. Para usuarios con presupuesto limitado, considere los modelos más pequeños de la familia Ling en HuggingFace.

Inicio rápido con vLLM

vLLM es el framework de servicio recomendado para Ling-2.5-1T:

# Instalar vLLM
pip install vllm

# Servir Ling-2.5-1T con paralelismo tensorial en 8 GPUs
vllm serve inclusionAI/Ling-2.5-1T \
    --tensor-parallel-size 8 \
    --max-model-len 65536 \
    --gpu-memory-utilization 0.90 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

# Para reducir memoria, limite la longitud del contexto:
vllm serve inclusionAI/Ling-2.5-1T \
    --tensor-parallel-size 8 \
    --max-model-len 16384 \
    --gpu-memory-utilization 0.95 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

Inicio rápido con llama.cpp (Cuantizado)

Para configuraciones con GPU de consumo, hay cuantizaciones GGUF disponibles:

# Instalar llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)

# Descargar un GGUF cuantizado (verifique HuggingFace para los quants disponibles)
huggingface-cli download inclusionAI/Ling-2.5-1T-GGUF \
    --include "*.Q4_K_M.gguf" \
    --local-dir ./models/

# Servir con llama-server (ajuste -ngl según la cantidad de GPUs)
./build/bin/llama-server \
    -m ./models/Ling-2.5-1T-Q4_K_M.gguf \
    -ngl 99 \
    -c 8192 \
    --host 0.0.0.0 \
    --port 8000

Ejemplos de uso

1. Completado de chat vía API de OpenAI

Una vez que vLLM o llama-server estén en funcionamiento:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="no-necesaria"
)

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[
        {"role": "system", "content": "Eres un asistente de razonamiento de clase mundial. Piensa paso a paso."},
        {"role": "user", "content": "Demuestra que la raíz cuadrada de 2 es irracional."}
    ],
    temperature=0.1,
    max_tokens=4096
)

print(response.choices[0].message.content)

2. Análisis de documentos de largo contexto

La atención lineal híbrida de Ling-2.5-1T lo hace excepcionalmente eficiente para documentos largos:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

# Cargar un documento grande
with open("full_codebase.txt", "r") as f:
    codebase = f.read()  # Puede tener cientos de miles de tokens

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[
        {"role": "system", "content": "Eres un arquitecto de software senior."},
        {"role": "user", "content": f"Analiza esta base de código en busca de vulnerabilidades de seguridad y problemas arquitectónicos:\n\n{codebase}"}
    ],
    temperature=0.1,
    max_tokens=8192
)

print(response.choices[0].message.content)

3. Uso agentivo de herramientas

Ling-2.5-1T está entrenado con RL agentivo para llamadas a herramientas:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

tools = [
    {
        "type": "function",
        "function": {
            "name": "search_database",
            "description": "Buscar en la base de datos de productos",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string"},
                    "category": {"type": "string", "enum": ["electronics", "clothing", "books"]},
                    "max_price": {"type": "number"}
                },
                "required": ["query"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[{"role": "user", "content": "Encuéntrame un portátil por menos de $1000 con buenas reseñas"}],
    tools=tools,
    tool_choice="auto"
)

print(response.choices[0].message.tool_calls)

Ling-2.5-1T vs Ring-2.5-1T

Aspecto

Ling-2.5-1T

Ring-2.5-1T

Tipo

Modelo instantáneo (rápido)

Modelo pensante (razonador)

Arquitectura

Atención lineal híbrida

Mejor para

Chat general, programación, tareas agentivas

Matemáticas, razonamiento formal, problemas complejos

Estilo de salida

Respuestas directas

Razonamiento en cadena de pensamiento

Eficiencia de tokens

Alta (menos tokens de salida)

Usa más tokens para razonar

IMO 2025

Competitivo

Nivel de medalla de oro

Consejos para usuarios de Clore.ai

Este modelo necesita hardware serio — Con 1T de parámetros, incluso la cuantización Q4 requiere ~500GB de almacenamiento y 192GB+ de VRAM. Asegúrese de que su instancia de Clore.ai tenga suficiente disco y multi-GPU antes de descargar.
Comience con --max-model-len 8192 — Al probar por primera vez, utilice un contexto corto para verificar que el modelo se cargue y funcione correctamente. Aumente la longitud del contexto una vez que todo funcione.
Use almacenamiento persistente — El modelo pesa 1–2TB. Adjunte un volumen persistente grande en Clore.ai para evitar volver a descargarlo. Descargue una vez con huggingface-cli download.
Considere Ring-2.5-1T para tareas de razonamiento — Si su caso de uso es principalmente matemáticas, lógica o razonamiento formal, el modelo acompañante Ring-2.5-1T está específicamente optimizado para razonamiento en cadena de pensamiento.
Monitoree la memoria GPU — Con configuraciones de 8 GPUs, use nvidia-smi -l 1 para monitorear el uso de memoria y vigilar OOM durante la generación con contextos largos.

Solución de problemas

Problema

Solución

CUDA fuera de memoria

Reducir --max-model-len; asegúrese --tensor-parallel-size coincida con la cantidad de GPUs; pruebe --gpu-memory-utilization 0.95

Generación muy lenta

La atención lineal necesita calentamiento; las primeras solicitudes pueden ser lentas. También verifique que tenga NVLink entre GPUs

Fallo en la descarga del modelo

El modelo tiene ~2TB en BF16. Asegure suficiente espacio en disco. Use --resume-download bandera con huggingface-cli

vLLM no soporta la arquitectura

Asegúrese de estar usando vLLM ≥0.7.0 con --trust-remote-code; las capas de atención personalizadas requieren esta bandera

GGUF no disponible

Verifique unsloth o cuantizaciones comunitarias; el modelo puede tardar en ser cuantizado por la comunidad

Respuestas de baja calidad

Use temperatura ≤0.1 para tareas factuales; agregue un prompt de sistema; asegúrese de no truncar el contexto

Lecturas adicionales

Anuncio oficial (BusinessWire) — Detalles del lanzamiento y benchmarks
HuggingFace — Ling-2.5-1T — Pesos del modelo y documentación
HuggingFace — Ring-2.5-1T — Modelo acompañante pensante
Mirror de ModelScope — Descargas más rápidas en Asia
Documentación vLLM — Framework de servicio

AnteriorMiMo-V2-Flash SiguienteLFM2-24B-A2B

Última actualización hace 21 días

¿Te fue útil?

hashtagCaracterísticas clave

hashtagDetalles de la arquitectura

hashtagRequisitos

hashtagInicio rápido con vLLM

hashtagInicio rápido con llama.cpp (Cuantizado)

hashtagEjemplos de uso

hashtag1. Completado de chat vía API de OpenAI

hashtag2. Análisis de documentos de largo contexto

hashtag3. Uso agentivo de herramientas

hashtagLing-2.5-1T vs Ring-2.5-1T

hashtagConsejos para usuarios de Clore.ai

hashtagSolución de problemas

hashtagLecturas adicionales