Mergekit Объединение моделей

Mergekit это окончательный набор инструментов для слияния предварительно обученных больших языковых моделей. С более чем 5 тыс. звёзд на GitHub он реализует все основные алгоритмы слияния моделей — SLERP, TIES, DARE, DARE-TIES, слияние MoE и другие — позволяя создавать мощные новые модели без каких-либо обучающих данных или времени обучения на GPU.

circle-check

Что такое Mergekit?

Слияние моделей — это мощная техника, которая объединяет сильные стороны нескольких LLM в одну модель:

  • Обучение не требуется — слияние происходит в пространстве весов, а не через обратное распространение ошибки

  • Комбинирование возможностей — смешайте модель для кодирования с моделью, выполняющей инструкции

  • Снижение слабостей — усредняйте индивидуальные сбои моделей в ансамбле

  • Создание Mixture of Experts — объединяйте модели в разреженную архитектуру MoE

  • Адаптация к домену — объединение базовой модели со специализированными доменными моделями

Mergekit реализует все современные алгоритмы:

Алгоритм
Описание
Лучше всего для

SLERP

Сферическая линейная интерполяция между двумя моделями

Плавное смешение двух похожих моделей

TIES

Обрезка избыточных параметров, выбор знаков, слияние

Комбинирование нескольких моделей с минимальными помехами

DARE

Отбрасывание и пересcaling случайных параметров

Снижение взаимного влияния параметров при больших слияниях

DARE-TIES

Комбинация DARE + TIES

Лучшее универсальное решение для слияний множества моделей

Linear

Простое взвешенное усреднение

Быстрые базовые слияния

Task Arithmetic

Сложение/вычитание векторов задач

Добавление/удаление конкретных возможностей

Passthrough

Копирование слоёв напрямую

Конструкция MoE

circle-info

Слияние моделей оказывается удивительно эффективным. Слитыe модели часто превосходят родительские на бенчмарках, комбинируя дополняющие знания. Сообщество MergeKit на HuggingFace хранит тысячи слитых моделей.


Требования к серверу

Компонент
Минимум
Рекомендуется

GPU

Не требуется (возможно слияние на CPU)

A100 40 ГБ для больших моделей

VRAM

80 ГБ для слияния моделей 70B

ОЗУ

32 ГБ

64 ГБ+ (модели загружаются в ОЗУ)

CPU

8 ядер

16+ ядер

Хранилище

100 ГБ

500 ГБ+

ОС

Ubuntu 20.04+

Ubuntu 22.04

Python

3.10+

3.11

circle-exclamation

Порты

Порт
Сервис
Примечания

22

SSH

Доступ к терминалу и передача файлов

Mergekit запускается как инструмент командной строки — веб-сервер не нужен.


Установка на Clore.ai

Шаг 1 — Аренда сервера

  1. Перейдите на Clore.ai Marketplacearrow-up-right

  2. Отфильтруйте по ОЗУ ≥ 64 ГБ (критично для слияния больших моделей)

  3. Выберите Хранилище ≥ 500 ГБ (слитые модели требуют места для 2–4 входных моделей + выходной)

  4. GPU не обязателен, но полезен, если вы хотите протестировать слитую модель после слияния

  5. Откройте порт 22 только

Шаг 2 — Подключение по SSH

Шаг 3 — Установите окружение Python

Шаг 4 — Установите Mergekit

Шаг 5 — Установите HuggingFace CLI

Шаг 6 — Проверьте установку


Загрузка моделей для слияния


Конфигурации слияния

Mergekit использует YAML файлы конфигурации для определения слияний.

Пример 1: SLERP слияние (две модели)

SLERP смешивает две модели вдоль сферической дуги — лучше всего для моделей одной архитектуры:

Пример 2: TIES слияние (несколько моделей)

TIES решает проблемы интерференции между множеством слитых моделей:

Пример 3: DARE-TIES слияние (лучшее универсальное)

Пример 4: Task Arithmetic (добавление возможностей)

Добавьте «дельту навыка» к базовой модели:

Пример 5: MoE (Mixture of Experts)

Объединение моделей в разреженную архитектуру MoE:


Запуск слияния

Базовая команда

Мониторинг прогресса


Тестирование слитой модели


Публикация на HuggingFace


Продвинуто: эволюционное слияние

Используйте эволюционный оптимизатор Mergekit для поиска оптимальных весов слияния:


Устранение неполадок

Недостаточно памяти (OOM) во время слияния

ValueError: модели несовместимы

Слияние очень медленное

Слитая модель даёт бессмыслицу

FileNotFoundError для файлов модели


Популярные рецепты слияния

General Assistant + Coding

Multilingual Boost


Полезные ссылки


Рекомендации Clore.ai по GPU

Сценарий использования
Рекомендуемый GPU
Примерная стоимость на Clore.ai

Разработка/Тестирование

RTX 3090 (24GB)

~$0.12/gpu/hr

Слияние моделей (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Крупные модели (70B+)

A100 80GB

~$1.20/gpu/hr

Мульти-GPU слияние

2-4x A100 80GB

~$2.40–$4.80/hr

💡 Все примеры в этом руководстве можно развернуть на Clore.aiarrow-up-right GPU-серверах. Просматривайте доступные GPU и арендуйте по часам — без обязательств, с полным root-доступом.

Последнее обновление

Это было полезно?