Mergekit मॉडल Merging

Mergekit प्रेट्रेंड बड़े भाषा मॉडलों को मर्ज करने के लिए यह निर्णायक टूलकिट है। 5K+ GitHub स्टार्स के साथ, यह हर प्रमुख मॉडल मर्जिंग एल्गोरिद्म — SLERP, TIES, DARE, DARE-TIES, MoE मर्जिंग, और अधिक — को लागू करता है, जिससे आप बिना किसी प्रशिक्षण डेटा या GPU प्रशिक्षण समय के शक्तिशाली नए मॉडल बना सकते हैं।

circle-check

Mergekit क्या है?

मॉडल मर्जिंग एक शक्तिशाली तकनीक है जो कई LLMs की ताकतों को एकल मॉडल में संयोजित करती है:

  • कोई प्रशिक्षण आवश्यक नहीं — मर्ज वेट स्पेस में होता है, बैकप्रोप के द्वारा नहीं

  • क्षमताओं को संयोजित करें — एक कोडिंग मॉडल को एक निर्देश-अनुकरण मॉडल के साथ मिश्रित करें

  • कमज़ोरियों को घटाएँ — एनसम्बल में व्यक्तिगत मॉडल की विफलताओं को औसत करके कम करें

  • Mixture of Experts बनाएं — मॉडलों को एक स्पैर्स MoE आर्किटेक्चर में मिलाएँ

  • डोमेन अनुकूलन — बेस मॉडल को डोमेन-विशेषीकृत मॉडलों के साथ मर्ज करें

Mergekit सभी स्टेट-ऑफ-द-आर्ट एल्गोरिद्म लागू करता है:

एल्गोरिथ्म
विवरण
माध्य/दिन

SLERP

दो मॉडलों के बीच स्फेरिकल लिनियर इंटरपोलेशन

दो समान मॉडलों का स्मूद मिश्रण

TIES

अवांछित पैरामीटर ट्रिम करें, साइन चुनें, मर्ज करें

कई मॉडलों को न्यूनतम हस्तक्षेप के साथ संयोजित करना

DARE

रैंडम पैरामीटर ड्रॉप और रीसकेल करें

बड़े मर्ज में पैरामीटर इंटरफेरेंस को कम करना

DARE-TIES

DARE + TIES संयुक्त

मल्टी-मॉडल मर्ज के लिए सर्वश्रेष्ठ समग्र विकल्प

Linear

सरल वेटेड औसत

त्वरित बेसलाइन मर्ज

Task Arithmetic

टास्क वेक्टर जोड़ें/घटाएं

विशिष्ट क्षमताओं को जोड़ना/हटाना

Passthrough

लेयर्स को सीधे कॉपी करें

MoE निर्माण

circle-info

मॉडल मर्जिंग आश्चर्यजनक रूप से प्रभावी है। मर्ज किए गए मॉडल अक्सर सम्मिलित ज्ञान को मिलाकर बेंचमार्क पर अपने मूल मॉडलों से बेहतर प्रदर्शन करते हैं। HuggingFace पर MergeKit समुदाय में हज़ारों मर्ज किए गए मॉडलों की मेज़बानी है।


सर्वर आवश्यकताएँ

घटक
न्यूनतम
अनुशंसित

GPU

अनिवार्य नहीं (CPU मर्ज संभव)

बड़े मॉडलों के लिए A100 40 GB

VRAM

आणविक गतिशीलता

70B मॉडल मर्ज के लिए 80 GB

RAM

32 GB

64 GB+ (मॉडल RAM में लोड होते हैं)

CPU

8 कोर

16+ कोर

स्टोरेज

100 GB

500 GB+

ऑपरेटिंग सिस्टम

Ubuntu 20.04+

Ubuntu 22.04

Python

3.10+

3.11

circle-exclamation

पोर्ट्स

पोर्ट
सेवा
नोट्स

22

SSH

टर्मिनल एक्सेस और फ़ाइल ट्रांसफ़र

Mergekit कमांड-लाइन टूल के रूप में चलता है — किसी वेब सर्वर की ज़रूरत नहीं।


Clore.ai पर इंस्टॉलेशन

चरण 1 — एक सर्वर किराए पर लें

  1. फ़िल्टर करें RAM ≥ 64 GB (बड़े मॉडल मर्ज के लिए महत्वपूर्ण)

  2. चुनें स्टोरेज ≥ 500 GB (मर्ज किए गए मॉडलों को 2-4 इनपुट मॉडलों + आउटपुट के लिए जगह चाहिए)

  3. GPU वैकल्पिक है लेकिन उपयोगी है यदि आप बाद में मर्ज किए गए मॉडल का परीक्षण करना चाहते हैं

  4. खुला पोर्ट 22 केवल

चरण 2 — SSH के द्वारा कनेक्ट करें

चरण 3 — Python पर्यावरण स्थापित करें

चरण 4 — Mergekit स्थापित करें

चरण 5 — HuggingFace CLI स्थापित करें

चरण 6 — स्थापना सत्यापित करें


मर्ज करने के लिए मॉडल डाउनलोड करना


मर्ज कॉन्फ़िगरेशन

Mergekit मर्ज को परिभाषित करने के लिए YAML कॉन्फ़िगरेशन फ़ाइलों का उपयोग करता है।

उदाहरण 1: SLERP मर्ज (दो मॉडल)

SLERP दो मॉडलों को एक स्फेरिकल आर्क के साथ मिलाता है — समान आर्किटेक्चर वाले मॉडलों के लिए सबसे अच्छा:

उदाहरण 2: TIES मर्ज (कई मॉडल)

TIES कई मर्ज किए गए मॉडलों के बीच हस्तक्षेप को संभालता है:

उदाहरण 3: DARE-TIES मर्ज (सर्वोत्तम समग्र)

उदाहरण 4: Task Arithmetic (क्षमतियाँ जोड़ें)

बेस मॉडल में एक "skill delta" जोड़ें:

उदाहरण 5: MoE (Mixture of Experts)

मॉडलों को एक स्पैर्स MoE आर्किटेक्चर में मिलाएँ:


मर्ज चलाना

बेसिक कमांड

प्रगति मॉनिटर करें


मर्ज किए गए मॉडल का परीक्षण


HuggingFace पर प्रकाशित करना


उन्नत: Evolutionary Merge

Mergekit के evolutionary optimizer का उपयोग करके अनुकूल मर्ज वज़न खोजें:


समस्या निवारण

मर्ज के दौरान मेमोरी समाप्त (OOM)

ValueError: मॉडल संगत नहीं हैं

मर्ज बहुत धीमा है

मर्ज किया गया मॉडल बकवास उत्पादन कर रहा है

FileNotFoundError मॉडल फ़ाइलों के लिए


लोकप्रिय मर्ज रेसिपीज़

जनरल असिस्टेंट + कोडिंग

बहुभाषी बूस्ट


उपयोगी लिंक


Clore.ai GPU सिफारिशें

उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत

डेवलपमेंट/टेस्टिंग

RTX 3090 (24GB)

~$0.12/gpu/hr

मॉडल मर्जिंग (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

बड़े मॉडल (70B+)

A100 80GB

~$1.20/gpu/hr

मल्टी-GPU मर्जिंग

2-4x A100 80GB

~$2.40–$4.80/hr

💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं Clore.aiarrow-up-right GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।

Last updated

Was this helpful?