SD WebUI Forge

अनुकूलित VRAM प्रबंधन और FLUX समर्थन के साथ Stable Diffusion WebUI Forge को Clore.ai GPUs पर तैनात करें

SD WebUI Forge क्लासिक AUTOMATIC1111 Stable Diffusion WebUI का एक अनुकूलित फोर्क है, जिसे lllyasviel टीम ने विकसित किया है। यह बहुत बेहतर VRAM प्रबंधन प्रदान करता है (4 GB GPU पर SDXL सक्षम करना), मूल FLUX मॉडल समर्थन, तेज़ जनरेशन गति, और सभी A1111 एक्सटेंशनों और मॉडलों के साथ पूर्ण पिछड़ा संगतता। CLORE.AI का लचीला GPU मार्केटप्लेस आपको Forge के लिए आदर्श GPU चुनने देता है — बजट कार्ड से लेकर टॉप-टियर A100s तक।

circle-check

सर्वर आवश्यकताएँ

पैरामीटर
न्यूनतम
अनुशंसित

RAM

8 GB

16 GB+

VRAM

4 GB

12 GB+

डिस्क

30 GB

200 GB+

GPU

NVIDIA GTX 1650 4GB+

RTX 3090, RTX 4090

circle-info

Forge का मुख्य लाभ इसका VRAM ऑप्टिमाइज़र है: यह जितना कम 4 GB VRAM पर भी SDXL चला सकता है (धीमी गति के साथ)। FLUX मॉडलों के लिए व्यावहारिक न्यूनतम 12 GB VRAM है, और पूरी गुणवत्ता व गति के लिए 24 GB की आवश्यकता होती है।

CLORE.AI पर त्वरित तैनाती

Docker इमेज: nykk3/stable-diffusion-webui-forge:latest

पोर्ट्स: 22/tcp, 7860/http

पर्यावरण चर:

चर
उदाहरण
विवरण

CLI_ARGS

--xformers --medvram

अतिरिक्त CLI आर्गुमेंट्स

COMMANDLINE_ARGS

--api --listen

वैकल्पिक CLI args env

चरण-दर-चरण सेटअप

1. CLORE.AI पर एक GPU सर्वर किराए पर लें

यहाँ जाएँ CLORE.AI मार्केटप्लेसarrow-up-right:

  • बजट SD1.5: GTX 1660/2060 (6 GB) — 512/768px के लिए पर्याप्त

  • SDXL सक्षम: RTX 3080/3090 (10–24 GB)

  • FLUX सक्षम: RTX 4090/A6000 (24+ GB)

  • अधिकतम गुणवत्ता: बैच जनरेशन के लिए A100 80GB

2. अपने सर्वर में SSH करें

3. स्टोरेज डायरेक्टरी बनाएं

4. SD WebUI Forge को पुल और रन करें

सामान्य लॉन्च:

API सक्षम और अतिरिक्त प्रदर्शन फ़्लैग के साथ:

कम VRAM मोड (4-6 GB GPU):

अधिकतम प्रदर्शन (24+ GB VRAM):

5. स्टार्टअप मॉनिटर करें

इसके लिए देखें:

पहली बार रन पर स्टार्टअप आम तौर पर 2–5 मिनट लेता है।

6. वेब इंटरफेस तक पहुँचें

पोर्ट 7860 के लिए आपका CLORE.AI http_pub URL:

7. मॉडलों को जोड़ें

विधि 1: वेब UI में CivitAI के माध्यम से डाउनलोड करें

  • जाएँ Extensions → Installed → Models (कुछ संस्करण)

  • या Settings में URL डाउनलोडर का उपयोग करें

विधि 2: सर्वर पर सीधे डाउनलोड करें

विधि 3: HuggingFace CLI


उपयोग के उदाहरण

उदाहरण 1: वेब UI के माध्यम से टेक्स्ट टू इमेज

  1. अपने CLORE.AI URL पर Forge UI खोलें

  2. अपने मॉडल का चयन करें Checkpoint ड्रॉपडाउन

  3. प्रॉम्प्ट डालें: "cinematic portrait of a warrior, golden hour, 8k photography"

  4. नकारात्मक प्रॉम्प्ट सेट करें: "blurry, low resolution, watermark, ugly"

  5. चौड़ाई/ऊंचाई सेट करें: 1024x1024 SDXL के लिए, 512x768 SD1.5 के लिए

  6. Steps सेट करें: 20–30, CFG: 7

  7. पर क्लिक करें Generate

उदाहरण 2: FLUX जनरेशन

FLUX मॉडल अलग तरीके से काम करते हैं — नकारात्मक प्रॉम्प्ट की आवश्यकता नहीं, उच्च गुणवत्ता:

  1. FLUX चेकपॉइंट चुनें (flux1-dev.safetensors)

  2. के अंतर्गत Forge, उपयुक्त चुनें Unet और VAE यदि अलग फाइलें हों

  3. प्रॉम्प्ट दर्ज करें (नकारात्मक प्रॉम्प्ट की जरूरत नहीं):

  4. Steps: 20, CFG: 1.0 (FLUX में कम CFG का उपयोग होता है)

  5. सैम्पलर: Euler इमेज जेनरेट करें DPM++ 2M

उदाहरण 3: ControlNet-गाइडेड जनरेशन

  1. ControlNet एक्सटेंशन इंस्टॉल करें (यदि पहले से इंस्टॉल नहीं है):

    • जाएँ Extensions → Available → Load from

    • "ControlNet" खोजें और इंस्टॉल करें

  2. ControlNet मॉडल डाउनलोड करें यहाँ: /root/sd-forge/models/ControlNet/

  3. txt2img में, विस्तारित करें ControlNet सेक्शन

  4. संदर्भ इमेज अपलोड करें (पोज़, डीप्थ, canny edge)

  5. अपने संदर्भ प्रकार के अनुरूप प्रीप्रोसेसर और मॉडल चुनें

  6. Generate — आउटपुट संदर्भ संरचना का पालन करेगा

उदाहरण 4: API उपयोग

के साथ --api फ़्लैग, Forge एक REST API उजागर करता है:

उदाहरण 5: बैच जनरेशन स्क्रिप्ट


कॉन्फ़िगरेशन

मुख्य CLI आर्गुमेंट्स

आर्गुमेंट
विवरण

--api

REST API सक्षम करें

--listen

सभी इंटरफेस पर सुनें (CLORE.AI के लिए आवश्यक)

--port 7860

पोर्ट बदलें

--xformers

xFormers attention सक्षम करें (तेज़, कम VRAM)

--medvram

मध्यम VRAM मोड (SD1.5 6GB पर)

--medvram-sdxl

SDXL के लिए मध्यम VRAM (SDXL 8GB पर)

--lowvram

कम VRAM मोड (बहुत धीमा, किसी भी GPU पर)

--no-half

float32 का उपयोग करें (अधिक VRAM, अधिक स्थिर)

--no-half-vae

VAE को float32 में रखें (काले इमेज होने से रोकता है)

--opt-sdp-attention

PyTorch scaled dot product attention

--enable-insecure-extension-access

एक्सटेंशन इंस्टॉलेशन की अनुमति दें

--skip-version-check

Python/torch वर्शन चेक स्किप करें

Forge-विशिष्ट सेटिंग्स

Forge UI में एक जोड़ता है Forge पैनल जिसमें:

  • Forge Unet: अनुकूलन बैकएंड चुनें (डिफ़ॉल्ट, bnb, आदि)

  • Diffusers Torch कंपाइलेशन: 20-30% तेज़ जनरेशन के लिए सक्षम करें (पहली रन पर कंपाइल होता है)

  • GPU वेट्स: GPU बनाम CPU पर कितना रखा जाए


प्रदर्शन सुझाव

1. 20-30% कम VRAM के लिए xFormers का उपयोग करें

अधिकांश GPUs पर स्वचालित रूप से प्रदर्शन में सुधार करता है।

2. Forge का VRAM ऑप्टिमाइज़र

Forge स्वचालित रूप से A1111 से बेहतर VRAM प्रबंध करता है। बस --medvram-sdxl फ्लैग का उपयोग करें SDXL को 8-12 GB GPUs पर चलाने के लिए और बाकी इसे संभालने दें।

3. Torch कंपाइलेशन सक्षम करें (Ampere+)

UI में Forge टैब में, सक्षम करें Diffusers Torch कंपाइलेशन. पहली जनरेशन को कंपाइल होने में 2-3 मिनट लगते हैं, लेकिन बाद की जनरेशन्स 20-30% तेज़ होती हैं।

4. आदर्श Steps/Sampler कॉम्बिनेशन

लक्ष्य
सैंपलर
स्टेप्स
CFG

गति

DPM++ SDE Karras

15-20

7

गुणवत्ता

DPM++ 2M Karras

25-35

7

आर्टिस्टिक

Euler a

20-30

5-7

FLUX

Euler

20

1

5. 2K+ रिज़ॉल्यूशन्स के लिए Tile VAE का उपयोग करें

अति-उच्च रिज़ॉल्यूशन (2048×2048+) के लिए, SD टैब में सक्षम करें Tiled VAE ताकि VAE OOM त्रुटियों से बचा जा सके।

6. API के साथ लोकली बैच करें

UI में एक-एक करके जनरेट करने के बजाय, तेज थ्रूपुट के लिए API के साथ उपयोग करें batch_size ताकि तेज़ थ्रूपुट:


समस्या निवारण

समस्या: काले या हरे इमेज

VAE प्रिसिशन समस्या। यह फ्लैग जोड़ें:

या उपयोग करें sdxl-vae-fp16-fix.safetensors VAE।

समस्या: "CUDA out of memory"

क्रम में आज़माएँ:

  1. --medvram-sdxl (SDXL के लिए)

  2. --medvram (SD1.5 के लिए)

  3. इमेज रिज़ॉल्यूशन कम करें

  4. --lowvram (अंतिम उपाय, बहुत धीमा)

समस्या: एक्सटेंशन्स लोड नहीं हो रहे

फिर UI में Extensions टैब से इंस्टॉल करें।

समस्या: स्टार्टअप बहुत लंबा लेता है

पहली रन पर सामान्य — PyTorch और मॉडल हैश गणना की जाती है। बाद की स्टार्ट्स तेज़ होते हैं।

समस्या: ब्राउज़र से UI एक्सेस नहीं कर पा रहे

सुनिश्चित करें कि Forge प्रोसेस बाइंड कर रहा है 0.0.0.0:

  • लॉन्च कमांड में जोड़ें --listen to CLI_ARGS

  • पुष्टि करें कि पोर्ट 7860 आपके CLORE.AI आर्डर पोर्ट सूची में है

समस्या: मॉडल ड्रॉपडाउन में नहीं दिख रहा

फाइलें रखने के बाद .safetensors सही फ़ोल्डर में, क्लिक करें 🔄 रिफ्रेश Checkpoint ड्रॉपडाउन के पास।


लिंक


Clore.ai GPU सिफारिशें

उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत

डेवलपमेंट/टेस्टिंग

RTX 3090 (24GB)

~$0.12/gpu/hr

प्रोडक्शन

RTX 4090 (24GB)

~$0.70/gpu/hr

बड़े पैमाने पर

A100 80GB

~$1.20/gpu/hr

💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं Clore.aiarrow-up-right GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।

Last updated

Was this helpful?