Mergekit Model Merging

Mergekit es el kit de herramientas definitivo para fusionar modelos de lenguaje grandes preentrenados. Con más de 5K estrellas en GitHub, implementa todos los principales algoritmos de fusión de modelos — SLERP, TIES, DARE, DARE-TIES, fusión MoE y más — permitiéndote crear nuevos y potentes modelos sin datos de entrenamiento ni tiempo de entrenamiento en GPU.

circle-check

¿Qué es Mergekit?

La fusión de modelos es una técnica poderosa que combina las fortalezas de múltiples LLM en un solo modelo:

  • No se requiere entrenamiento — la fusión ocurre en el espacio de pesos, no mediante retropropagación

  • Combinar capacidades — mezclar un modelo de codificación con un modelo que sigue instrucciones

  • Reducir debilidades — promediar los fallos individuales de los modelos en un conjunto

  • Crear Mezcla de Expertos — combinar modelos en una arquitectura MoE dispersa

  • Adaptación de dominio — fusionar un modelo base con modelos especializados en un dominio

Mergekit implementa todos los algoritmos de vanguardia:

Algoritmo
Descripción
Mejor para

SLERP

Interpolación lineal esférica entre dos modelos

Mezcla suave de dos modelos similares

TIES

Recortar parámetros redundantes, elegir signos, fusionar

Combinar múltiples modelos con mínima interferencia

DARE

Eliminar y reescalar parámetros aleatorios

Reducir la interferencia de parámetros en fusiones grandes

DARE-TIES

DARE + TIES combinados

Mejor en general para fusiones de múltiples modelos

Lineal

Promedio ponderado simple

Fusiones de referencia rápidas

Aritmética de tareas

Sumar/restar vectores de tareas

Agregar/eliminar capacidades específicas

Paso directo

Copiar capas directamente

Construcción MoE

circle-info

La fusión de modelos es sorprendentemente efectiva. Los modelos fusionados a menudo superan a sus progenitores en benchmarks al combinar conocimientos complementarios. La comunidad de MergeKit en HuggingFace alberga miles de modelos fusionados.


Requisitos del servidor

Componente
Mínimo
Recomendado

GPU

No es obligatorio (fusión en CPU posible)

A100 40 GB para modelos grandes

VRAM

80 GB para fusiones de modelos de 70B

RAM

32 GB

64 GB+ (los modelos se cargan en la RAM)

CPU

8 núcleos

16+ núcleos

Almacenamiento

100 GB

500 GB+

SO

Ubuntu 20.04+

Ubuntu 22.04

Python

3.10+

3.11

circle-exclamation

Puertos

Puerto
Servicio
Notas

22

SSH

Acceso a terminal y transferencia de archivos

Mergekit se ejecuta como una herramienta de línea de comandos — no se necesita servidor web.


Instalación en Clore.ai

Paso 1 — Alquila un servidor

  1. Filtra por RAM ≥ 64 GB (crítico para fusiones de modelos grandes)

  2. Elige Almacenamiento ≥ 500 GB (los modelos fusionados requieren espacio para 2-4 modelos de entrada + salida)

  3. La GPU es opcional pero útil si quieres probar el modelo fusionado después

  4. Abrir puerto 22 solo

Paso 2 — Conéctate vía SSH

Paso 3 — Instalar entorno de Python

Paso 4 — Instalar Mergekit

Paso 5 — Instalar HuggingFace CLI

Paso 6 — Verificar la instalación


Descargando modelos para fusionar


Configuraciones de fusión

Mergekit usa archivos de configuración YAML para definir fusiones.

Ejemplo 1: Fusión SLERP (Dos Modelos)

SLERP mezcla dos modelos a lo largo de un arco esférico — mejor para modelos de la misma arquitectura:

Ejemplo 2: Fusión TIES (Múltiples Modelos)

TIES maneja la interferencia entre múltiples modelos fusionados:

Ejemplo 3: Fusión DARE-TIES (Mejor en general)

Ejemplo 4: Aritmética de tareas (Agregar capacidades)

Agregar una "delta de habilidad" a un modelo base:

Ejemplo 5: MoE (Mezcla de Expertos)

Combinar modelos en una arquitectura MoE dispersa:


Ejecutando la fusión

Comando básico

Monitorear el progreso


Probando el modelo fusionado


Publicar en HuggingFace


Avanzado: Fusión evolutiva

Usa el optimizador evolutivo de Mergekit para encontrar los pesos de fusión óptimos:


Solución de problemas

Agotamiento de memoria (OOM) durante la fusión

ValueError: los modelos no son compatibles

La fusión es muy lenta

El modelo fusionado produce galimatías

FileNotFoundError para archivos de modelo


Recetas de fusión populares

Asistente general + Codificación

Impulso multilingüe


Enlaces útiles


Recomendaciones de GPU en Clore.ai

Caso de uso
GPU recomendada
Coste estimado en Clore.ai

Desarrollo/Pruebas

RTX 3090 (24GB)

~$0.12/gpu/hr

Fusión de modelos (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Modelos grandes (70B+)

A100 80GB

~$1.20/gpu/hr

Fusión con múltiples GPU

2-4x A100 80GB

~$2.40–$4.80/hr

💡 Todos los ejemplos en esta guía pueden desplegarse en Clore.aiarrow-up-right servidores GPU. Navega las GPUs disponibles y alquila por hora — sin compromisos, acceso root completo.

Última actualización

¿Te fue útil?