# Ling-2.5-1T (1 billón de parámetros)

Ling-2.5-1T de Ant Group (lanzado el 16 de febrero de 2026) es uno de los modelos de lenguaje de código abierto más grandes jamás publicados — **1 billón de parámetros en total con 63B activos**. Introduce una arquitectura híbrida de atención lineal que permite una inferencia eficiente en longitudes de contexto de hasta 1 millón de tokens. Junto a él, Ant Group lanzó Ring-2.5-1T, el primer modelo pensante del mundo con arquitectura lineal híbrida. Juntos representan una nueva frontera en la IA de código abierto — competitivos con GPT-5.2, DeepSeek V3.2 y Kimi K2.5 en benchmarks de razonamiento y capacidad agentiva.

**HuggingFace:** [inclusionAI/Ling-2.5-1T](https://huggingface.co/inclusionAI/Ling-2.5-1T) **Modelo acompañante:** [inclusionAI/Ring-2.5-1T](https://huggingface.co/inclusionAI/Ring-2.5-1T) (variante pensante/razonadora) **Licencia:** Código abierto (Licencia Ant Group InclusionAI)

## Características clave

* **1 billón de parámetros en total, 63B activos** — escala masiva con activación eficiente estilo MoE
* **Atención lineal híbrida** — combina MLA (Atención Lineal Multi-cabeza) con Lightning Linear Attention para un rendimiento excepcional en secuencias largas
* **Ventana de contexto de 1M tokens** — mediante la extensión YaRN desde el nativo de 256K, maneja bases de código completas y documentos del tamaño de libros
* **Razonamiento de vanguardia** — se aproxima al rendimiento de modelos pensantes mientras usa \~4× menos tokens de salida
* **Capacidades agente** — entrenado con RL agentivo, compatible con Claude Code, OpenCode y OpenClaw
* **Compañero Ring-2.5-1T** — la variante dedicada al razonamiento alcanza nivel de medalla de oro en IMO 2025 y CMO 2025

## Detalles de la arquitectura

| Componente                | Detalles                                         |
| ------------------------- | ------------------------------------------------ |
| Parámetros totales        | 1T (1.000B)                                      |
| Parámetros activos        | 63B                                              |
| Arquitectura              | Atención lineal híbrida (MLA + Lightning Linear) |
| Datos de preentrenamiento | 29T tokens                                       |
| Contexto nativo           | 256K tokens                                      |
| Contexto extendido        | 1M tokens (YaRN)                                 |
| Fecha de lanzamiento      | 16 de febrero de 2026                            |

## Requisitos

Ejecutar Ling-2.5-1T en precisión completa requiere recursos sustanciales. Las versiones cuantizadas lo hacen más accesible.

| Configuración | Cuantizado (Q4 GGUF) | FP8            | BF16 (Completo)  |
| ------------- | -------------------- | -------------- | ---------------- |
| GPU           | 8× RTX 4090          | 8× H100 80GB   | 16× H100 80GB    |
| VRAM          | 8×24GB (192GB)       | 8×80GB (640GB) | 16×80GB (1.28TB) |
| RAM           | 256GB                | 512GB          | 1TB              |
| Disco         | 600GB                | 1.2TB          | 2TB+             |
| CUDA          | 12.0+                | 12.0+          | 12.0+            |

**Configuración recomendada para Clore.ai:**

* **Cuantizado (Q4):** 8× RTX 4090 (\~$4–16/día) — usable para experimentación y cargas de trabajo moderadas
* **Producción (FP8):** 8× H100 (\~$24–48/día) — calidad completa con buen rendimiento
* **Nota:** Este es un modelo extremadamente grande. Para usuarios con presupuesto limitado, considere los modelos más pequeños de la familia Ling en [HuggingFace](https://huggingface.co/inclusionAI).

## Inicio rápido con vLLM

vLLM es el framework de servicio recomendado para Ling-2.5-1T:

```bash
# Instalar vLLM
pip install vllm

# Servir Ling-2.5-1T con paralelismo tensorial en 8 GPUs
vllm serve inclusionAI/Ling-2.5-1T \
    --tensor-parallel-size 8 \
    --max-model-len 65536 \
    --gpu-memory-utilization 0.90 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

# Para reducir memoria, limite la longitud del contexto:
vllm serve inclusionAI/Ling-2.5-1T \
    --tensor-parallel-size 8 \
    --max-model-len 16384 \
    --gpu-memory-utilization 0.95 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000
```

## Inicio rápido con llama.cpp (Cuantizado)

Para configuraciones con GPU de consumo, hay cuantizaciones GGUF disponibles:

```bash
# Instalar llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)

# Descargar un GGUF cuantizado (verifique HuggingFace para los quants disponibles)
huggingface-cli download inclusionAI/Ling-2.5-1T-GGUF \
    --include "*.Q4_K_M.gguf" \
    --local-dir ./models/

# Servir con llama-server (ajuste -ngl según la cantidad de GPUs)
./build/bin/llama-server \
    -m ./models/Ling-2.5-1T-Q4_K_M.gguf \
    -ngl 99 \
    -c 8192 \
    --host 0.0.0.0 \
    --port 8000
```

## Ejemplos de uso

### 1. Completado de chat vía API de OpenAI

Una vez que vLLM o llama-server estén en funcionamiento:

```python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="no-necesaria"
)

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[
        {"role": "system", "content": "Eres un asistente de razonamiento de clase mundial. Piensa paso a paso."},
        {"role": "user", "content": "Demuestra que la raíz cuadrada de 2 es irracional."}
    ],
    temperature=0.1,
    max_tokens=4096
)

print(response.choices[0].message.content)
```

### 2. Análisis de documentos de largo contexto

La atención lineal híbrida de Ling-2.5-1T lo hace excepcionalmente eficiente para documentos largos:

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

# Cargar un documento grande
with open("full_codebase.txt", "r") as f:
    codebase = f.read()  # Puede tener cientos de miles de tokens

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[
        {"role": "system", "content": "Eres un arquitecto de software senior."},
        {"role": "user", "content": f"Analiza esta base de código en busca de vulnerabilidades de seguridad y problemas arquitectónicos:\n\n{codebase}"}
    ],
    temperature=0.1,
    max_tokens=8192
)

print(response.choices[0].message.content)
```

### 3. Uso agentivo de herramientas

Ling-2.5-1T está entrenado con RL agentivo para llamadas a herramientas:

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="n/a")

tools = [
    {
        "type": "function",
        "function": {
            "name": "search_database",
            "description": "Buscar en la base de datos de productos",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string"},
                    "category": {"type": "string", "enum": ["electronics", "clothing", "books"]},
                    "max_price": {"type": "number"}
                },
                "required": ["query"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="inclusionAI/Ling-2.5-1T",
    messages=[{"role": "user", "content": "Encuéntrame un portátil por menos de $1000 con buenas reseñas"}],
    tools=tools,
    tool_choice="auto"
)

print(response.choices[0].message.tool_calls)
```

## Ling-2.5-1T vs Ring-2.5-1T

| Aspecto              | Ling-2.5-1T                                  | Ring-2.5-1T                                           |
| -------------------- | -------------------------------------------- | ----------------------------------------------------- |
| Tipo                 | Modelo instantáneo (rápido)                  | Modelo pensante (razonador)                           |
| Arquitectura         | Atención lineal híbrida                      | Atención lineal híbrida                               |
| Mejor para           | Chat general, programación, tareas agentivas | Matemáticas, razonamiento formal, problemas complejos |
| Estilo de salida     | Respuestas directas                          | Razonamiento en cadena de pensamiento                 |
| Eficiencia de tokens | Alta (menos tokens de salida)                | Usa más tokens para razonar                           |
| IMO 2025             | Competitivo                                  | Nivel de medalla de oro                               |

## Consejos para usuarios de Clore.ai

1. **Este modelo necesita hardware serio** — Con 1T de parámetros, incluso la cuantización Q4 requiere \~500GB de almacenamiento y 192GB+ de VRAM. Asegúrese de que su instancia de Clore.ai tenga suficiente disco y multi-GPU antes de descargar.
2. **Comience con `--max-model-len 8192`** — Al probar por primera vez, utilice un contexto corto para verificar que el modelo se cargue y funcione correctamente. Aumente la longitud del contexto una vez que todo funcione.
3. **Use almacenamiento persistente** — El modelo pesa 1–2TB. Adjunte un volumen persistente grande en Clore.ai para evitar volver a descargarlo. Descargue una vez con `huggingface-cli download`.
4. **Considere Ring-2.5-1T para tareas de razonamiento** — Si su caso de uso es principalmente matemáticas, lógica o razonamiento formal, el modelo acompañante Ring-2.5-1T está específicamente optimizado para razonamiento en cadena de pensamiento.
5. **Monitoree la memoria GPU** — Con configuraciones de 8 GPUs, use `nvidia-smi -l 1` para monitorear el uso de memoria y vigilar OOM durante la generación con contextos largos.

## Solución de problemas

| Problema                        | Solución                                                                                                                                     |
| ------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------- |
| `CUDA fuera de memoria`         | Reducir `--max-model-len`; asegúrese `--tensor-parallel-size` coincida con la cantidad de GPUs; pruebe `--gpu-memory-utilization 0.95`       |
| Generación muy lenta            | La atención lineal necesita calentamiento; las primeras solicitudes pueden ser lentas. También verifique que tenga NVLink entre GPUs         |
| Fallo en la descarga del modelo | El modelo tiene \~2TB en BF16. Asegure suficiente espacio en disco. Use `--resume-download` bandera con `huggingface-cli`                    |
| vLLM no soporta la arquitectura | Asegúrese de estar usando vLLM ≥0.7.0 con `--trust-remote-code`; las capas de atención personalizadas requieren esta bandera                 |
| GGUF no disponible              | Verifique [unsloth](https://huggingface.co/unsloth) o cuantizaciones comunitarias; el modelo puede tardar en ser cuantizado por la comunidad |
| Respuestas de baja calidad      | Use temperatura ≤0.1 para tareas factuales; agregue un prompt de sistema; asegúrese de no truncar el contexto                                |

## Lecturas adicionales

* [Anuncio oficial (BusinessWire)](https://www.businesswire.com/news/home/20260215551663/en/) — Detalles del lanzamiento y benchmarks
* [HuggingFace — Ling-2.5-1T](https://huggingface.co/inclusionAI/Ling-2.5-1T) — Pesos del modelo y documentación
* [HuggingFace — Ring-2.5-1T](https://huggingface.co/inclusionAI/Ring-2.5-1T) — Modelo acompañante pensante
* [Mirror de ModelScope](https://www.modelscope.cn/models/inclusionAI/Ling-2.5-1T) — Descargas más rápidas en Asia
* [Documentación vLLM](https://docs.vllm.ai/) — Framework de servicio
