Ling-2.5-1T (1 Billion Parameter)
Führen Sie Ling-2.5-1T aus — Ant Groups 1 Billion Parameter Open-Source-LLM mit hybrider linearer Aufmerksamkeit auf Clore.ai GPUs
Ling-2.5-1T von Ant Group (veröffentlicht am 16. Februar 2026) ist eines der größten jemals veröffentlichten Open-Source-Sprachmodelle — 1 Billion Gesamtparameter mit 63B aktiv. Es führt eine hybride lineare Aufmerksamkeitsarchitektur ein, die effiziente Inferenz bei Kontextlängen von bis zu 1 Million Token ermöglicht. Begleitend dazu veröffentlichte Ant Group Ring-2.5-1T, das weltweit erste Denkmodell mit hybrider linearer Architektur. Zusammen repräsentieren sie eine neue Grenze in der Open-Source-KI — konkurrenzfähig mit GPT-5.2, DeepSeek V3.2 und Kimi K2.5 bei Reasoning- und Agentic-Benchmarks.
HuggingFace: inclusionAI/Ling-2.5-1T Begleitmodell: inclusionAI/Ring-2.5-1T (Denk-/Reasoning-Variante) Lizenz: Open Source (Ant Group InclusionAI Lizenz)
Hauptmerkmale
1 Billion Gesamtparameter, 63B aktiv — massive Größe mit effizienter MoE-ähnlicher Aktivierung
Hybride lineare Aufmerksamkeit — kombiniert MLA (Multi-head Linear Attention) mit Lightning Linear Attention für außergewöhnlichen Durchsatz bei langen Sequenzen
1M Token-Kontextfenster — über YaRN-Erweiterung von nativen 256K, verarbeitet ganze Codebasen und bücherlange Dokumente
Grenzen des Reasoning — nähert sich der Leistung von Denkmodellen an und verwendet dabei etwa 4× weniger Ausgabetoken
Agentische Fähigkeiten — trainiert mit Agentic RL, kompatibel mit Claude Code, OpenCode und OpenClaw
Ring-2.5-1T Begleiter — dedizierte Reasoning-Variante erreicht IMO 2025 und CMO 2025 Goldmedaillen-Niveau
Architekturdetails
Gesamtparameter
1T (1.000B)
Aktive Parameter
63B
Architektur
Hybride lineare Aufmerksamkeit (MLA + Lightning Linear)
Vortrainingsdaten
29T Token
Nativer Kontext
256K Token
Erweiterter Kontext
1M Token (YaRN)
Veröffentlichungsdatum
16. Februar 2026
Anforderungen
Ling-2.5-1T im Vollpräzisionsbetrieb auszuführen erfordert erhebliche Ressourcen. Quantisierte Versionen machen es zugänglicher.
GPU
8× RTX 4090
8× H100 80GB
16× H100 80GB
VRAM
8×24GB (192GB)
8×80GB (640GB)
16×80GB (1,28TB)
RAM
256GB
512GB
1TB
Festplatte
600GB
1,2TB
2TB+
CUDA
12.0+
12.0+
12.0+
Empfohlene Clore.ai-Konfiguration:
Quantisiert (Q4): 8× RTX 4090 (~$4–16/Tag) — geeignet für Experimente und moderate Workloads
Produktion (FP8): 8× H100 (~$24–48/Tag) — volle Qualität mit gutem Durchsatz
Hinweis: Dies ist ein extrem großes Modell. Für budgetbewusste Nutzer sollten Sie die kleineren Modelle der Ling-Familie auf HuggingFace.
Schnellstart mit vLLM
vLLM ist das empfohlene Serving-Framework für Ling-2.5-1T:
Schnellstart mit llama.cpp (quantisiert)
Für Consumer-GPU-Setups sind GGUF-Quantisierungen verfügbar:
Beispielanwendungen
1. Chat-Vervollständigung über die OpenAI-API
Sobald vLLM oder llama-server läuft:
2. Langkontext-Dokumentenanalyse
Die hybride lineare Aufmerksamkeit von Ling-2.5-1T macht es außerordentlich effizient für lange Dokumente:
3. Agentischer Tool-Einsatz
Ling-2.5-1T wurde mit Agentic RL für Tool-Aufrufe trainiert:
Ling-2.5-1T vs Ring-2.5-1T
Typ
Instant (schnelles) Modell
Denk- (Reasoning-) Modell
Architektur
Hybride lineare Aufmerksamkeit
Hybride lineare Aufmerksamkeit
Am besten geeignet für
Allgemeinen Chat, Coding, agentische Aufgaben
Mathematik, formales Reasoning, komplexe Probleme
Ausgabestil
Direkte Antworten
Chain-of-Thought-Reasoning
Token-Effizienz
Hoch (weniger Ausgabetoken)
Verwendet mehr Token für Reasoning
IMO 2025
Wettbewerbsfähig
Goldmedaillen-Niveau
Tipps für Clore.ai-Nutzer
Dieses Modell benötigt ernsthafte Hardware — Bei 1T Parametern erfordert selbst Q4-Quantisierung etwa ~500GB Speicherplatz und 192GB+ VRAM. Stellen Sie sicher, dass Ihre Clore.ai-Instanz über ausreichend Festplatte und Multi-GPU verfügt, bevor Sie den Download starten.
Beginnen Sie mit
--max-model-len 8192— Beim ersten Testen verwenden Sie einen kurzen Kontext, um zu prüfen, ob das Modell korrekt geladen und ausgeführt wird. Erhöhen Sie die Kontextlänge, sobald alles funktioniert.Verwenden Sie persistenten Speicher — Das Modell wiegt 1–2TB. Hängen Sie ein großes persistentes Volume an Clore.ai an, um erneutes Herunterladen zu vermeiden. Laden Sie einmal mit
huggingface-cli download.Erwägen Sie Ring-2.5-1T für Reasoning-Aufgaben — Wenn Ihr Anwendungsfall hauptsächlich Mathematik, Logik oder formales Reasoning ist, ist das Begleitmodell Ring-2.5-1T speziell für Chain-of-Thought-Reasoning optimiert.
Überwachen Sie den GPU-Speicher — Bei 8-GPU-Setups verwenden Sie
nvidia-smi -l 1um die Speichernutzung zu überwachen und auf OOM während der Generierung mit langen Kontexten zu achten.
Fehlerbehebung
CUDA out of memory
Reduzieren --max-model-len; stellen Sie sicher --tensor-parallel-size entspricht der GPU-Anzahl; versuchen Sie --gpu-memory-utilization 0.95
Sehr langsame Generierung
Lineare Aufmerksamkeit benötigt Aufwärmzeit; die ersten Anfragen können langsam sein. Prüfen Sie auch, ob NVLink zwischen den GPUs vorhanden ist
Modelldownload schlägt fehl
Das Modell ist ~2TB in BF16. Stellen Sie ausreichend Festplattenspeicher sicher. Verwenden Sie --resume-download Flag mit huggingface-cli
vLLM unterstützt die Architektur nicht
Stellen Sie sicher, dass Sie vLLM ≥0.7.0 mit --trust-remote-code; die benutzerdefinierten Attention-Schichten benötigen dieses Flag
GGUF nicht verfügbar
Überprüfen Sie unsloth oder Community-Quantisierungen; das Modell könnte Zeit benötigen, bis es von der Community quantisiert wird
Schlechte Antwortqualität
Verwenden Sie Temperatur ≤0,1 für faktische Aufgaben; fügen Sie einen Systemprompt hinzu; stellen Sie sicher, dass Sie den Kontext nicht abschneiden
Weiterführende Lektüre
Offizielle Ankündigung (BusinessWire) — Veröffentlichungsdetails und Benchmarks
HuggingFace — Ling-2.5-1T — Modellgewichte und Dokumentation
HuggingFace — Ring-2.5-1T — Denkmodell-Begleiter
ModelScope Mirror — Schnellere Downloads in Asien
vLLM-Dokumentation — Serving-Framework
Zuletzt aktualisiert
War das hilfreich?