Ling-2.5-1T(1 万亿参数)

运行 Ling-2.5-1T —— 蚂蚁集团的 1 万亿参数开源 LLM,采用混合线性注意力,在 Clore.ai GPU 上运行

蚂蚁集团的 Ling-2.5-1T(于 2026 年 2 月 16 日发布)是有史以来发布的最大开源语言模型之一 — 总参数量 1 万亿,激活参数 630 亿。它引入了一种混合线性注意力架构,使得在最长可达 100 万 token 的上下文长度上能够高效推理。与此同时,蚂蚁集团发布了 Ring-2.5-1T,全球首个混合线性架构的思考模型。二者共同代表了开源 AI 的新前沿——在推理与代理基准上可与 GPT-5.2、DeepSeek V3.2 和 Kimi K2.5 相抗衡。

HuggingFace: inclusionAI/Ling-2.5-1Tarrow-up-right 配套模型: inclusionAI/Ring-2.5-1Tarrow-up-right (思考/推理 变体) 许可: 开源(蚂蚁集团 InclusionAI 许可)

主要特性

  • 总参数 1 万亿,激活参数 630 亿 — 大规模且采用高效的 MoE 风格激活

  • 混合线性注意力 — 将 MLA(多头线性注意力)与 Lightning Linear Attention 结合,在长序列上提供卓越吞吐量

  • 100 万 token 上下文窗口 — 通过 YaRN 从原生 256K 扩展,能够处理整个代码库和书籍长度的文档

  • 前沿推理能力 — 在使用约 4× 更少输出 token 的情况下,接近思考模型的表现

  • 代理能力 — 使用 Agentic 强化学习训练,兼容 Claude Code、OpenCode 和 OpenClaw

  • Ring-2.5-1T 配套模型 — 专用的推理变体达到了 IMO 2025 和 CMO 2025 的金牌水平

架构详情

组件
详细信息

参数总量

1T(1,000B)

激活参数

63B

架构

混合线性注意力(MLA + Lightning Linear)

预训练数据

29T token

原生上下文

256K token

扩展上下文

1M token(YaRN)

发布日期

2026 年 2 月 16 日

需求

以全精度运行 Ling-2.5-1T 需要大量资源。量化版本使其更易获取。

配置
量化(Q4 GGUF)
FP8
BF16(全精度)

GPU

8× RTX 4090

8× H100 80GB

16× H100 80GB

显存

8×24GB(192GB)

8×80GB(640GB)

16×80GB(1.28TB)

内存

256GB

512GB

1TB

磁盘

600GB

1.2TB

2TB+

CUDA

12.0+

12.0+

12.0+

推荐的 Clore.ai 配置:

  • 量化(Q4): 8× RTX 4090(约 $4–16/天)— 适用于实验和中等负载

  • 生产(FP8): 8× H100(约 $24–48/天)— 全质量且吞吐良好

  • 注意: 这是一个极其庞大的模型。对于预算敏感的用户,考虑 Ling 家族中更小的模型,见 HuggingFacearrow-up-right.

vLLM 快速入门

vLLM 是推荐用于 Ling-2.5-1T 的服务框架:

使用 llama.cpp 的快速入门(量化)

对于消费级 GPU 设置,可用 GGUF 量化:

使用示例

1. 通过 OpenAI API 的聊天补全

一旦 vLLM 或 llama-server 正在运行:

2. 长上下文文档分析

Ling-2.5-1T 的混合线性注意力使其在处理长文档时极为高效:

3. 代理工具使用

Ling-2.5-1T 使用 Agentic 强化学习训练以支持工具调用:

Ling-2.5-1T 与 Ring-2.5-1T 对比

方面
Ling-2.5-1T
Ring-2.5-1T

类型

即时(快速)模型

思考(推理)模型

架构

混合线性注意力

混合线性注意力

最适合

通用聊天、编程、代理任务

数学、形式推理、复杂问题

输出风格

直接回答

链式思维推理

Token 效率

高(输出 token 较少)

在推理时使用更多 token

IMO 2025

有竞争力

金牌级别

给 Clore.ai 用户的提示

  1. 该模型需要强大的硬件 — 在 1T 参数规模下,即使是 Q4 量化也需要约 500GB 存储和 192GB+ 显存。下载前请确保你的 Clore.ai 实例有足够的磁盘空间和多 GPU 配置。

  2. 从以下设置开始 --max-model-len 8192 — 初次测试时使用较短的上下文以验证模型能正确加载并运行。确认无误后再扩大上下文长度。

  3. 使用持久化存储 — 该模型大小在 1–2TB。为避免重复下载,在 Clore.ai 上挂载大容量持久卷。只需下载一次,使用 huggingface-cli download.

  4. 对于推理任务,考虑使用 Ring-2.5-1T — 如果你的用例主要是数学、逻辑或形式推理,配套的 Ring-2.5-1T 模型专为链式思维推理优化。

  5. 监控 GPU 内存 — 在 8 GPU 配置下,使用 nvidia-smi -l 1 来监控内存使用情况,并在长上下文生成时注意是否出现 OOM。

故障排除

问题
解决方案

CUDA 内存不足(out of memory)

减少 --max-model-len;确保 --tensor-parallel-size 与 GPU 数量匹配;尝试 --gpu-memory-utilization 0.95

生成非常慢

线性注意力需要热身;前几次请求可能较慢。另外检查 GPU 之间是否有 NVLink

模型下载失败

模型 BF16 大小约为 2TB。请确保有足够磁盘空间。使用 --resume-download 标志与 huggingface-cli

vLLM 不支持该架构

确保你使用 vLLM ≥0.7.0 并带上 --trust-remote-code;自定义注意力层需要此标志

GGUF 不可用

检查 unslotharrow-up-right 或社区量化;该模型可能需要社区一段时间来完成量化

响应质量差

对于事实型任务使用 temperature ≤0.1;添加系统提示;确保没有截断上下文

延伸阅读

最后更新于

这有帮助吗?