Mergekit Modellzusammenführung

Mergekit ist das definitive Toolkit zum Zusammenführen vortrainierter großer Sprachmodelle. Mit über 5.000 GitHub-Sternen implementiert es alle wichtigen Model-Merging-Algorithmen — SLERP, TIES, DARE, DARE-TIES, MoE-Zusammenführung und mehr — und ermöglicht es Ihnen, leistungsstarke neue Modelle ohne Trainingsdaten oder GPU-Trainingszeit zu erstellen.

circle-check

Was ist Mergekit?

Model Merging ist eine leistungsstarke Technik, die die Stärken mehrerer LLMs in einem einzigen Modell vereint:

  • Kein Training erforderlich — das Zusammenführen passiert im Gewicht-Raum, nicht durch Backpropagation

  • Fähigkeiten kombinieren — mischen Sie ein Coding-Modell mit einem instruktionsorientierten Modell

  • Schwächen reduzieren — durchschnittliche Ausmerzung individueller Modellfehler innerhalb eines Ensembles

  • Mixture of Experts erstellen — kombinieren Sie Modelle zu einer sparsamen MoE-Architektur

  • Domänenanpassung — Base-Model mit domänenspezialisierten Modellen zusammenführen

Mergekit implementiert alle state-of-the-art Algorithmen:

Algorithmus
Beschreibung
Am besten für

SLERP

Sphärische lineare Interpolation zwischen zwei Modellen

Sanfte Verschmelzung zweier ähnlicher Modelle

TIES

Trimmen redundanter Parameter, Vorzeichen wählen, zusammenführen

Kombination mehrerer Modelle mit minimaler Interferenz

DARE

Zufällige Parameter fallen lassen und neu skalieren

Reduzierung von Parameterinterferenzen bei großen Merges

DARE-TIES

DARE + TIES kombiniert

Insgesamt am besten für Multi-Modell-Zusammenführungen

Linear

Einfache gewichtete Mittelung

Schnelle Basislinien-Merges

Task Arithmetic

Aufgabe-Vektoren addieren/subtrahieren

Hinzufügen/Entfernen spezifischer Fähigkeiten

Passthrough

Layer direkt kopieren

MoE-Konstruktion

circle-info

Model Merging ist überraschend effektiv. Zusammgeführte Modelle übertreffen oft ihre Eltern in Benchmarks, indem sie komplementäres Wissen kombinieren. Die MergeKit-Community auf HuggingFace hostet tausende zusammengeführte Modelle.


Serveranforderungen

Komponente
Minimum
Empfohlen

GPU

Nicht erforderlich (CPU-Zusammenführung möglich)

A100 40 GB für große Modelle

VRAM

80 GB für 70B Modellzusammenführungen

RAM

32 GB

64 GB+ (Modelle werden in den RAM geladen)

CPU

8 Kerne

16+ Kerne

Speicher

100 GB

500 GB+

Betriebssystem

Ubuntu 20.04+

Ubuntu 22.04

Python

3.10+

3.11

circle-exclamation

Ports

Port
Dienst
Hinweise

22

SSH

Terminalzugriff und Dateitransfer

Mergekit läuft als Kommandozeilentool — kein Webserver erforderlich.


Installation auf Clore.ai

Schritt 1 — Einen Server mieten

  1. Filtere nach RAM ≥ 64 GB (kritisch für große Modellzusammenführungen)

  2. Wählen Sie Speicher ≥ 500 GB (zusammengeführte Modelle benötigen Platz für 2–4 Eingabemodelle + Ausgabe)

  3. GPU ist optional, aber nützlich, wenn Sie das zusammengeführte Modell danach testen möchten

  4. Öffne Port 22 nur

Schritt 2 — Verbindung per SSH

Schritt 3 — Python-Umgebung installieren

Schritt 4 — Mergekit installieren

Schritt 5 — HuggingFace CLI installieren

Schritt 6 — Installation überprüfen


Modelle zum Zusammenführen herunterladen


Merge-Konfigurationen

Mergekit verwendet YAML-Konfigurationsdateien zur Definition von Merges.

Beispiel 1: SLERP Merge (Zwei Modelle)

SLERP mischt zwei Modelle entlang eines sphärischen Bogens — am besten für Modelle derselben Architektur:

Beispiel 2: TIES Merge (Mehrere Modelle)

TIES behandelt Interferenzen zwischen mehreren zusammengeführten Modellen:

Beispiel 3: DARE-TIES Merge (Beste Allround-Lösung)

Beispiel 4: Task Arithmetic (Fähigkeiten hinzufügen)

Fügen Sie einem Basismodell ein „Skill-Delta“ hinzu:

Beispiel 5: MoE (Mixture of Experts)

Kombinieren Sie Modelle zu einer sparsamen MoE-Architektur:


Den Merge ausführen

Grundlegender Befehl

Fortschritt überwachen


Das zusammengeführte Modell testen


Auf HuggingFace veröffentlichen


Fortgeschritten: Evolutionärer Merge

Verwenden Sie Mergekits evolutionären Optimierer, um optimale Merge-Gewichte zu finden:


Fehlerbehebung

Out of Memory (OOM) während des Merges

ValueError: Modelle sind nicht kompatibel

Der Merge ist sehr langsam

Das zusammengeführte Modell erzeugt Unsinn

FileNotFoundError für Modellaus Dateien


Beliebte Merge-Rezepte

Allgemeiner Assistent + Coding

Mehrsprachiger Boost



Clore.ai GPU-Empfehlungen

Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai

Entwicklung/Tests

RTX 3090 (24GB)

~$0.12/gpu/hr

Model Merging (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Große Modelle (70B+)

A100 80GB

~$1.20/gpu/hr

Multi-GPU-Zusammenführung

2–4× A100 80GB

~$2.40–$4.80/hr

💡 Alle Beispiele in diesem Leitfaden können bereitgestellt werden auf Clore.aiarrow-up-right GPU-Servern. Durchsuchen Sie verfügbare GPUs und mieten Sie stundenweise — keine Verpflichtungen, voller Root-Zugriff.

Zuletzt aktualisiert

War das hilfreich?