> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/training/kohya-training.md).

# Kohya Training

Kohya के ट्रेनर का उपयोग करके Stable Diffusion के लिए LoRA, Dreambooth और पूर्ण फाइन-ट्यून प्रशिक्षण करें।

{% hint style="success" %}
सभी उदाहरण GPU सर्वरों पर चलाए जा सकते हैं जिन्हें द्वारा किराए पर लिया गया है [CLORE.AI मार्केटप्लेस](https://clore.ai/marketplace).
{% endhint %}

## CLORE.AI पर किराये पर लेना

1. पर जाएँ [CLORE.AI मार्केटप्लेस](https://clore.ai/marketplace)
2. GPU प्रकार, VRAM, और मूल्य के अनुसार फ़िल्टर करें
3. चुनें **ऑन-डिमांड** (निश्चित दर) या **स्पॉट** (बिड प्राइस)
4. अपना ऑर्डर कॉन्फ़िगर करें:
   * Docker इमेज चुनें
   * पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)
   * यदि आवश्यक हो तो एनवायरनमेंट वेरिएबल जोड़ें
   * स्टार्टअप कमांड दर्ज करें
5. भुगतान चुनें: **CLORE**, **BTC**, या **USDT/USDC**
6. ऑर्डर बनाएं और डिप्लॉयमेंट का इंतज़ार करें

### अपने सर्वर तक पहुँचें

* कनेक्शन विवरण में खोजें **मेरे ऑर्डर**
* वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें
* SSH: `ssh -p <port> root@<proxy-address>`

## Kohya क्या है?

Kohya\_ss एक प्रशिक्षण टूलकिट है:

* **LoRA** - हल्के एडाप्टर (सबसे लोकप्रिय)
* **Dreambooth** - सब्जेक्ट/शैली प्रशिक्षण
* **पूर्ण फाइन-ट्यून** - पूरा मॉडल प्रशिक्षण
* **LyCORIS** - उन्नत LoRA वैरिएंट

## आवश्यकताएँ

| प्रशिक्षण प्रकार  | न्यूनतम VRAM | अनुशंसित |
| ----------------- | ------------ | -------- |
| LoRA SD 1.5       | 6GB          | RTX 3060 |
| LoRA SDXL         | 12GB         | RTX 3090 |
| Dreambooth SD 1.5 | 12GB         | RTX 3090 |
| Dreambooth SDXL   | 24GB         | RTX 4090 |

## त्वरित तैनाती

**Docker इमेज:**

```
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-devel
```

**पोर्ट:**

```
22/tcp
7860/http
```

**कमांड:**

```bash
apt-get update && apt-get install -y git libgl1 libglib2.0-0 && \
cd /workspace && \
git clone https://github.com/bmaltais/kohya_ss.git && \
cd kohya_ss && \
pip install -r requirements.txt && \
pip install xformers && \
python kohya_gui.py --listen 0.0.0.0 --server_port 7860
```

## अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें `http_pub` URL में **मेरे ऑर्डर**:

1. जाएँ **मेरे ऑर्डर** पृष्ठ
2. अपने ऑर्डर पर क्लिक करें
3. खोजें `http_pub` URL (उदा., `abc123.clorecloud.net`)

उपयोग करें `https://YOUR_HTTP_PUB_URL` की बजाय `localhost` नीचे दिए उदाहरणों में।

## वेब UI का उपयोग करना

1. पहुँचें: `http://<proxy>:<port>`
2. प्रशिक्षण प्रकार चुनें (LoRA, Dreambooth, आदि)
3. सेटिंग्स कॉन्फ़िगर करें
4. प्रशिक्षण शुरू करें

## डेटासेट की तैयारी

### फ़ोल्डर संरचना

```
/workspace/dataset/
├── 10_mysubject/           # Repeats_conceptname
│   ├── image1.png
│   ├── image1.txt          # कैप्शन फ़ाइल
│   ├── image2.png
│   └── image2.txt
└── 10_regularization/      # वैकल्पिक रेग इमेजेस
    ├── reg1.png
    └── reg1.txt
```

### छवि आवश्यकताएँ

* **रिज़ॉल्यूशन:** 512x512 (SD 1.5) या 1024x1024 (SDXL)
* **फ़ॉर्मेट:** PNG या JPG
* **मात्रा:** LoRA के लिए 10-50 छवियाँ
* **गुणवत्ता:** स्पष्ट, अच्छी रोशनी वाली, विभिन्न कोणों वाली

### कैप्शन फ़ाइलें

बनाएँ `.txt` उसी नाम की फ़ाइल जो छवि के समान हो:

**myimage.txt:**

```
a photo of sks person, professional portrait, studio lighting, high quality
```

### ऑटो-कैप्शनिंग

स्वचालित कैप्शन के लिए BLIP का उपयोग करें:

```python
from transformers import BlipProcessor, BlipForConditionalGeneration
from PIL import Image
import os

processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base").to("cuda")

for img_file in os.listdir("./images"):
    if img_file.endswith(('.png', '.jpg')):
        image = Image.open(f"./images/{img_file}")
        inputs = processor(image, return_tensors="pt").to("cuda")
        output = model.generate(**inputs, max_new_tokens=50)
        caption = processor.decode(output[0], skip_special_tokens=True)

        txt_file = img_file.rsplit('.', 1)[0] + '.txt'
        with open(f"./images/{txt_file}", 'w') as f:
            f.write(caption)
```

## LoRA प्रशिक्षण (SD 1.5)

### कॉन्फ़िगरेशन

**Kohya UI में:**

| सेटिंग        | मान                            |
| ------------- | ------------------------------ |
| मॉडल          | runwayml/stable-diffusion-v1-5 |
| नेटवर्क रैंक  | 32-128                         |
| नेटवर्क अल्फा | 16-64                          |
| लर्निंग रेट   | 1e-4                           |
| बैच आकार      | 1-4                            |
| एपॉच          | 10-20                          |
| ऑप्टिमाइज़र   | AdamW8bit                      |

### कमान्ड लाइन प्रशिक्षण

```bash
accelerate launch --num_cpu_threads_per_process=2 train_network.py \
    --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5" \
    --train_data_dir="/workspace/dataset" \
    --output_dir="/workspace/output" \
    --output_name="my_lora" \
    --resolution=512 \
    --train_batch_size=1 \
    --max_train_epochs=10 \
    --learning_rate=1e-4 \
    --network_module=networks.lora \
    --network_dim=32 \
    --network_alpha=16 \
    --mixed_precision=fp16 \
    --save_precision=fp16 \
    --optimizer_type=AdamW8bit \
    --lr_scheduler=cosine \
    --cache_latents \
    --xformers \
    --save_every_n_epochs=2
```

## LoRA प्रशिक्षण (SDXL)

```bash
accelerate launch train_network.py \
    --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0" \
    --train_data_dir="/workspace/dataset" \
    --output_dir="/workspace/output" \
    --output_name="my_sdxl_lora" \
    --resolution=1024 \
    --train_batch_size=1 \
    --max_train_epochs=10 \
    --learning_rate=1e-4 \
    --network_module=networks.lora \
    --network_dim=32 \
    --network_alpha=16 \
    --mixed_precision=bf16 \
    --save_precision=fp16 \
    --optimizer_type=Adafactor \
    --cache_latents \
    --xformers \
    --save_every_n_epochs=2
```

## Dreambooth प्रशिक्षण

### सब्जेक्ट प्रशिक्षण

```bash
accelerate launch train_dreambooth.py \
    --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5" \
    --instance_data_dir="/workspace/dataset/instance" \
    --class_data_dir="/workspace/dataset/class" \
    --output_dir="/workspace/output" \
    --instance_prompt="a photo of sks person" \
    --class_prompt="a photo of person" \
    --with_prior_preservation \
    --prior_loss_weight=1.0 \
    --num_class_images=200 \
    --resolution=512 \
    --train_batch_size=1 \
    --learning_rate=2e-6 \
    --max_train_steps=1000 \
    --mixed_precision=fp16 \
    --gradient_checkpointing
```

### स्टाइल प्रशिक्षण

```bash
accelerate launch train_dreambooth.py \
    --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5" \
    --instance_data_dir="/workspace/dataset/style" \
    --output_dir="/workspace/output" \
    --instance_prompt="painting in the style of xyz" \
    --resolution=512 \
    --train_batch_size=1 \
    --learning_rate=5e-6 \
    --max_train_steps=2000 \
    --mixed_precision=fp16
```

## प्रशिक्षण सुझाव

### उत्तम सेटिंग्स

| पैरामीटर      | व्यक्ति/चरित्र | शैली  | वस्तु |
| ------------- | -------------- | ----- | ----- |
| नेटवर्क रैंक  | 64-128         | 32-64 | 32    |
| नेटवर्क अल्फा | 32-64          | 16-32 | 16    |
| लर्निंग रेट   | 1e-4           | 5e-5  | 1e-4  |
| एपॉच          | 15-25          | 10-15 | 10-15 |

### ओवरफिटिंग से बचना

* रेगुलराइज़ेशन इमेजेस का उपयोग करें
* कम लर्निंग दर का उपयोग करें
* कम एपॉक्स
* नेटवर्क अल्फा बढ़ाएँ

### अंडरफिटिंग से बचना

* अधिक प्रशिक्षण छवियाँ
* ऊँची लर्निंग दर
* अधिक एपॉक्स
* नेटवर्क अल्फा कम करें

## प्रशिक्षण की निगरानी

### TensorBoard

```bash
tensorboard --logdir /workspace/output/logs --port 6006 --bind_all
```

### प्रमुख मेट्रिक्स

* **लॉस** - घटना चाहिए फिर स्थिर होना चाहिए
* **lr** - लर्निंग रेट का शेड्यूल
* **एपॉच** - प्रशिक्षण प्रगति

## अपने LoRA का परीक्षण करना

### Automatic1111 के साथ

LoRA कॉपी करें:

```
stable-diffusion-webui/models/Lora/my_lora.safetensors
```

प्रॉम्प्ट में उपयोग करें:

```
<lora:my_lora:0.8> a photo of sks person
```

### ComfyUI के साथ

LoRA नोड लोड करें और मॉडल से कनेक्ट करें।

### Diffusers के साथ

```python
from diffusers import StableDiffusionPipeline
import torch

pipe = StableDiffusionPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5",
    torch_dtype=torch.float16
).to("cuda")

pipe.load_lora_weights("/workspace/output/my_lora.safetensors")

image = pipe("a photo of sks person, professional portrait").images[0]
```

## उन्नत प्रशिक्षण

### LyCORIS (LoHa, LoKR)

```bash
accelerate launch train_network.py \
    --network_module=lycoris.kohya \
    --network_args "algo=loha" "conv_dim=4" "conv_alpha=2" \
    ...
```

### Textual Inversion

```bash
accelerate launch train_textual_inversion.py \
    --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5" \
    --train_data_dir="/workspace/dataset" \
    --learnable_property="style" \
    --placeholder_token="<my-style>" \
    --initializer_token="art" \
    --resolution=512 \
    --train_batch_size=1 \
    --max_train_steps=3000 \
    --learning_rate=5e-4
```

## सहेजना और निर्यात करना

### प्रशिक्षित मॉडल डाउनलोड करें

```bash
scp -P <port> root@<proxy>:/workspace/output/my_lora.safetensors ./
```

### फॉर्मैट बदलना

```python

# SafeTensors से PyTorch
from safetensors.torch import load_file, save_file
import torch

state_dict = load_file("model.safetensors")
torch.save(state_dict, "model.pt")
```

## लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

| GPU       | घंटात्मक दर | दैनिक दर | 4-घंटे सत्र |
| --------- | ----------- | -------- | ----------- |
| RTX 3060  | \~$0.03     | \~$0.70  | \~$0.12     |
| RTX 3090  | \~$0.06     | \~$1.50  | \~$0.25     |
| RTX 4090  | \~$0.10     | \~$2.30  | \~$0.40     |
| A100 40GB | \~$0.17     | \~$4.00  | \~$0.70     |
| A100 80GB | \~$0.25     | \~$6.00  | \~$1.00     |

*कीमतें प्रदाता और मांग के अनुसार बदलती हैं। जाँच करें* [*CLORE.AI मार्केटप्लेस*](https://clore.ai/marketplace) *वर्तमान दरों के लिए।*

**पैसे बचाएँ:**

* उपयोग करें **स्पॉट** लचीले वर्कलोड के लिए मार्केट (अक्सर 30-50% सस्ता)
* भुगतान करें **CLORE** टोकन के साथ
* विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

## FLUX LoRA प्रशिक्षण

FLUX.1-dev और FLUX.1-schnell के लिए LoRA एडाप्टर प्रशिक्षित करें — उच्च गुणवत्ता वाली नवीनतम पीढ़ी के डिफ्यूज़न ट्रांसफ़ॉर्मर मॉडलों के लिए।

### VRAM आवश्यकताएँ

| मॉडल              | न्यूनतम VRAM | अनुशंसित GPU    |
| ----------------- | ------------ | --------------- |
| FLUX.1-schnell    | 16GB         | RTX 4080 / 3090 |
| FLUX.1-dev        | 24GB         | RTX 4090        |
| FLUX.1-dev (bf16) | 40GB+        | A100 40GB       |

> **नोट:** FLUX DiT (Diffusion Transformer) आर्किटेक्चर का उपयोग करता है — प्रशिक्षण गतिशीलता SD 1.5 / SDXL से काफी अलग है।

### FLUX के लिए इंस्टॉलेशन

CUDA 12.4 समर्थन के साथ PyTorch इंस्टॉल करें:

```bash
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124
pip install xformers --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
pip install accelerate sentencepiece protobuf
```

### FLUX LoRA कॉन्फ़िगरेशन (flux\_lora.toml)

```toml
[general]
shuffle_caption = false
caption_extension = ".txt"
keep_tokens = 1

[datasets]
[[datasets.subsets]]
image_dir = "/workspace/dataset/train"
caption_extension = ".txt"
num_repeats = 5
resolution = [512, 512]

[training]
pretrained_model_name_or_path = "black-forest-labs/FLUX.1-dev"
output_dir = "/workspace/output"
output_name = "my_flux_lora"

# FLUX-विशिष्ट: bf16 का उपयोग करें (fp16 नहीं — FLUX को bf16 चाहिए)
mixed_precision = "bf16"
save_precision = "bf16"
full_bf16 = true

train_batch_size = 1
max_train_epochs = 20
gradient_checkpointing = true
gradient_accumulation_steps = 4

# FLUX LoRA पैरामीटर — SDXL की तुलना में कम LR!
learning_rate = 1e-4
lr_scheduler = "cosine_with_restarts"
lr_warmup_steps = 100

# नेटवर्क कॉन्फ़िगरेशन
network_module = "networks.lora_flux"
network_dim = 16           # FLUX: छोटे dim अच्छे काम करते हैं (16-64)
network_alpha = 16         # नेटवर्क_dim के बराबर सेट करें

# FLUX-विशिष्ट विकल्प
t5xxl_max_token_length = 512
apply_t5_attn_mask = true

# ऑप्टिमाइज़र — Adafactor FLUX के लिए अच्छा काम करता है
optimizer_type = "adafactor"
optimizer_args = ["scale_parameter=False", "relative_step=False", "warmup_init=False"]

# मेमोरी बचत
cache_latents = true
cache_latents_to_disk = true
cache_text_encoder_outputs = true
cache_text_encoder_outputs_to_disk = true

# प्रशिक्षण के दौरान सैंपलिंग (वैकल्पिक पूर्वावलोकन)
sample_every_n_epochs = 5
sample_prompts = "/workspace/sample_prompts.txt"
```

### FLUX LoRA प्रशिक्षण कमांड

```bash
# एकल GPU
accelerate launch train_network.py \
    --config_file flux_lora.toml \
    --network_module networks.lora_flux \
    --network_dim 16 \
    --network_alpha 16 \
    --mixed_precision bf16 \
    --full_bf16

# स्पष्ट पैरामीटर के साथ (कोई toml नहीं)
accelerate launch train_network.py \
    --pretrained_model_name_or_path "black-forest-labs/FLUX.1-dev" \
    --train_data_dir "/workspace/dataset" \
    --output_dir "/workspace/output" \
    --output_name "my_flux_lora" \
    --network_module networks.lora_flux \
    --network_dim 16 \
    --network_alpha 16 \
    --learning_rate 1e-4 \
    --max_train_epochs 20 \
    --train_batch_size 1 \
    --gradient_accumulation_steps 4 \
    --mixed_precision bf16 \
    --full_bf16 \
    --optimizer_type adafactor \
    --cache_latents \
    --cache_text_encoder_outputs \
    --t5xxl_max_token_length 512 \
    --apply_t5_attn_mask \
    --save_every_n_epochs 5
```

### FLUX बनाम SDXL: प्रमुख अंतर

| पैरामीटर        | SDXL          | FLUX.1              |
| --------------- | ------------- | ------------------- |
| लर्निंग रेट     | 1e-3 से 1e-4  | **1e-4 से 5e-5**    |
| प्रिसिजन        | fp16 या bf16  | **bf16 आवश्यक**     |
| नेटवर्क मॉड्यूल | networks.lora | networks.lora\_flux |
| नेटवर्क डिम     | 32–128        | 8–64 (छोटा)         |
| ऑप्टिमाइज़र     | AdamW8bit     | Adafactor           |
| न्यूनतम VRAM    | 12GB          | 16–24GB             |
| आर्किटेक्चर     | U-Net         | DiT (Transformer)   |

### FLUX के लिए लर्निंग रेट गाइड

```toml
# कंज़र्वेटिव (सुरक्षित, ओवरफिटिंग की संभावना कम)
learning_rate = 5e-5

# मानक (शुरू करने के लिए अच्छा बिंदु)
learning_rate = 1e-4

# आक्रामक (अधिक अभिव्यक्तिपूर्ण, आर्टिफैक्ट्स का जोखिम)
learning_rate = 2e-4
```

> **संकेत:** FLUX SDXL की तुलना में लर्निंग रेट के प्रति अधिक संवेदनशील है। शुरू करें `1e-4` और गुणवत्ता समस्याएँ दिखने पर इसे घटाएँ `5e-5` SDXL के लिए, `1e-3` सामान्य है — FLUX के लिए इससे बचें।

### FLUX LoRA का परीक्षण करना

```python
import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-dev",
    torch_dtype=torch.bfloat16,
).to("cuda")

# अपने प्रशिक्षित LoRA को लोड करें
pipe.load_lora_weights("/workspace/output/my_flux_lora.safetensors")

image = pipe(
    prompt="a photo of sks person, professional portrait, studio lighting",
    num_inference_steps=28,
    guidance_scale=3.5,
    width=1024,
    height=1024,
).images[0]

image.save("flux_lora_test.png")
```

***

## समस्याओं का निवारण

### OOM त्रुटि

* बैच साइज को 1 तक घटाएँ
* ग्रेडियेंट चेकपॉइंटिंग सक्षम करें
* 8bit ऑप्टिमाइज़र का उपयोग करें
* रिज़ॉल्यूशन कम करें

### खराब परिणाम

* अधिक/बेहतर प्रशिक्षण छवियाँ
* लर्निंग रेट समायोजित करें
* जाँचें कि कैप्शन छवियों से मेल खाते हैं
* अलग नेटवर्क रैंक आज़माएँ

### प्रशिक्षण क्रैश होते हैं

* CUDA संस्करण जाँचें
* xformers अपडेट करें
* बैच साइज घटाएँ
* डिस्क स्थान जाँचें

### FLUX-विशिष्ट समस्याएँ

* **"bf16 समर्थित नहीं"** — A-सीरीज़ (Ampere+) या RTX 30/40 सीरीज़ GPU का उपयोग करें
* **FLUX.1-dev पर OOM** — FLUX.1-schnell पर स्विच करें (16GB आवश्यक) या सक्षम करें `cache_text_encoder_outputs`
* **धुंधले परिणाम** — बढ़ाएँ `network_dim` को 32–64 तक, लर्निंग रेट को घटाएँ `5e-5`
* **NaN लॉस** — अक्षम करें `full_bf16`और अपने डेटासेट में भ्रष्ट छवियों की जाँच करें


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/training/kohya-training.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
