Kohya प्रशिक्षण

Clore.ai पर Kohya के साथ Stable Diffusion के लिए LoRA और DreamBooth ट्रेन करें

Kohya के ट्रेनर का उपयोग करके Stable Diffusion के लिए LoRA, Dreambooth और पूर्ण फाइन-ट्यून प्रशिक्षण करें।

circle-check

CLORE.AI पर किराये पर लेना

  1. GPU प्रकार, VRAM, और मूल्य के अनुसार फ़िल्टर करें

  2. चुनें ऑन-डिमांड (निश्चित दर) या स्पॉट (बिड प्राइस)

  3. अपना ऑर्डर कॉन्फ़िगर करें:

    • Docker इमेज चुनें

    • पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)

    • यदि आवश्यक हो तो एनवायरनमेंट वेरिएबल जोड़ें

    • स्टार्टअप कमांड दर्ज करें

  4. भुगतान चुनें: CLORE, BTC, या USDT/USDC

  5. ऑर्डर बनाएं और डिप्लॉयमेंट का इंतज़ार करें

अपने सर्वर तक पहुँचें

  • कनेक्शन विवरण में खोजें मेरे ऑर्डर

  • वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें

  • SSH: ssh -p <port> root@<proxy-address>

Kohya क्या है?

Kohya_ss एक प्रशिक्षण टूलकिट है:

  • LoRA - हल्के एडाप्टर (सबसे लोकप्रिय)

  • Dreambooth - सब्जेक्ट/शैली प्रशिक्षण

  • पूर्ण फाइन-ट्यून - पूरा मॉडल प्रशिक्षण

  • LyCORIS - उन्नत LoRA वैरिएंट

आवश्यकताएँ

प्रशिक्षण प्रकार
न्यूनतम VRAM
अनुशंसित

LoRA SD 1.5

6GB

RTX 3060

LoRA SDXL

12GB

RTX 3090

Dreambooth SD 1.5

12GB

RTX 3090

Dreambooth SDXL

24GB

RTX 4090

त्वरित तैनाती

Docker इमेज:

पोर्ट:

कमांड:

अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

  1. जाएँ मेरे ऑर्डर पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की बजाय localhost नीचे दिए उदाहरणों में।

वेब UI का उपयोग करना

  1. पहुँचें: http://<proxy>:<port>

  2. प्रशिक्षण प्रकार चुनें (LoRA, Dreambooth, आदि)

  3. सेटिंग्स कॉन्फ़िगर करें

  4. प्रशिक्षण शुरू करें

डेटासेट की तैयारी

फ़ोल्डर संरचना

छवि आवश्यकताएँ

  • रिज़ॉल्यूशन: 512x512 (SD 1.5) या 1024x1024 (SDXL)

  • फ़ॉर्मेट: PNG या JPG

  • मात्रा: LoRA के लिए 10-50 छवियाँ

  • गुणवत्ता: स्पष्ट, अच्छी रोशनी वाली, विभिन्न कोणों वाली

कैप्शन फ़ाइलें

बनाएँ .txt उसी नाम की फ़ाइल जो छवि के समान हो:

myimage.txt:

ऑटो-कैप्शनिंग

स्वचालित कैप्शन के लिए BLIP का उपयोग करें:

LoRA प्रशिक्षण (SD 1.5)

कॉन्फ़िगरेशन

Kohya UI में:

सेटिंग
मान

मॉडल

runwayml/stable-diffusion-v1-5

नेटवर्क रैंक

32-128

नेटवर्क अल्फा

16-64

लर्निंग रेट

1e-4

बैच आकार

1-4

एपॉच

10-20

ऑप्टिमाइज़र

AdamW8bit

कमान्ड लाइन प्रशिक्षण

LoRA प्रशिक्षण (SDXL)

Dreambooth प्रशिक्षण

सब्जेक्ट प्रशिक्षण

स्टाइल प्रशिक्षण

प्रशिक्षण सुझाव

उत्तम सेटिंग्स

पैरामीटर
व्यक्ति/चरित्र
शैली
वस्तु

नेटवर्क रैंक

64-128

32-64

32

नेटवर्क अल्फा

32-64

16-32

16

लर्निंग रेट

1e-4

5e-5

1e-4

एपॉच

15-25

10-15

10-15

ओवरफिटिंग से बचना

  • रेगुलराइज़ेशन इमेजेस का उपयोग करें

  • कम लर्निंग दर का उपयोग करें

  • कम एपॉक्स

  • नेटवर्क अल्फा बढ़ाएँ

अंडरफिटिंग से बचना

  • अधिक प्रशिक्षण छवियाँ

  • ऊँची लर्निंग दर

  • अधिक एपॉक्स

  • नेटवर्क अल्फा कम करें

प्रशिक्षण की निगरानी

TensorBoard

प्रमुख मेट्रिक्स

  • लॉस - घटना चाहिए फिर स्थिर होना चाहिए

  • lr - लर्निंग रेट का शेड्यूल

  • एपॉच - प्रशिक्षण प्रगति

अपने LoRA का परीक्षण करना

Automatic1111 के साथ

LoRA कॉपी करें:

प्रॉम्प्ट में उपयोग करें:

ComfyUI के साथ

LoRA नोड लोड करें और मॉडल से कनेक्ट करें।

Diffusers के साथ

उन्नत प्रशिक्षण

LyCORIS (LoHa, LoKR)

Textual Inversion

सहेजना और निर्यात करना

प्रशिक्षित मॉडल डाउनलोड करें

फॉर्मैट बदलना

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

कीमतें प्रदाता और मांग के अनुसार बदलती हैं। जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड के लिए मार्केट (अक्सर 30-50% सस्ता)

  • भुगतान करें CLORE टोकन के साथ

  • विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

FLUX LoRA प्रशिक्षण

FLUX.1-dev और FLUX.1-schnell के लिए LoRA एडाप्टर प्रशिक्षित करें — उच्च गुणवत्ता वाली नवीनतम पीढ़ी के डिफ्यूज़न ट्रांसफ़ॉर्मर मॉडलों के लिए।

VRAM आवश्यकताएँ

मॉडल
न्यूनतम VRAM
अनुशंसित GPU

FLUX.1-schnell

16GB

RTX 4080 / 3090

FLUX.1-dev

24GB

RTX 4090

FLUX.1-dev (bf16)

40GB+

A100 40GB

नोट: FLUX DiT (Diffusion Transformer) आर्किटेक्चर का उपयोग करता है — प्रशिक्षण गतिशीलता SD 1.5 / SDXL से काफी अलग है।

FLUX के लिए इंस्टॉलेशन

CUDA 12.4 समर्थन के साथ PyTorch इंस्टॉल करें:

FLUX LoRA कॉन्फ़िगरेशन (flux_lora.toml)

FLUX LoRA प्रशिक्षण कमांड

FLUX बनाम SDXL: प्रमुख अंतर

पैरामीटर
SDXL
FLUX.1

लर्निंग रेट

1e-3 से 1e-4

1e-4 से 5e-5

प्रिसिजन

fp16 या bf16

bf16 आवश्यक

नेटवर्क मॉड्यूल

networks.lora

networks.lora_flux

नेटवर्क डिम

32–128

8–64 (छोटा)

ऑप्टिमाइज़र

AdamW8bit

Adafactor

न्यूनतम VRAM

12GB

16–24GB

आर्किटेक्चर

U-Net

DiT (Transformer)

FLUX के लिए लर्निंग रेट गाइड

संकेत: FLUX SDXL की तुलना में लर्निंग रेट के प्रति अधिक संवेदनशील है। शुरू करें 1e-4 और गुणवत्ता समस्याएँ दिखने पर इसे घटाएँ 5e-5 SDXL के लिए, 1e-3 सामान्य है — FLUX के लिए इससे बचें।

FLUX LoRA का परीक्षण करना


समस्याओं का निवारण

OOM त्रुटि

  • बैच साइज को 1 तक घटाएँ

  • ग्रेडियेंट चेकपॉइंटिंग सक्षम करें

  • 8bit ऑप्टिमाइज़र का उपयोग करें

  • रिज़ॉल्यूशन कम करें

खराब परिणाम

  • अधिक/बेहतर प्रशिक्षण छवियाँ

  • लर्निंग रेट समायोजित करें

  • जाँचें कि कैप्शन छवियों से मेल खाते हैं

  • अलग नेटवर्क रैंक आज़माएँ

प्रशिक्षण क्रैश होते हैं

  • CUDA संस्करण जाँचें

  • xformers अपडेट करें

  • बैच साइज घटाएँ

  • डिस्क स्थान जाँचें

FLUX-विशिष्ट समस्याएँ

  • "bf16 समर्थित नहीं" — A-सीरीज़ (Ampere+) या RTX 30/40 सीरीज़ GPU का उपयोग करें

  • FLUX.1-dev पर OOM — FLUX.1-schnell पर स्विच करें (16GB आवश्यक) या सक्षम करें cache_text_encoder_outputs

  • धुंधले परिणाम — बढ़ाएँ network_dim को 32–64 तक, लर्निंग रेट को घटाएँ 5e-5

  • NaN लॉस — अक्षम करें full_bf16और अपने डेटासेट में भ्रष्ट छवियों की जाँच करें

Last updated

Was this helpful?