Stable Diffusion 3.5
Clore.ai GPUs पर Stable Diffusion 3.5 का उपयोग करके सटीक टेक्स्ट रेंडरिंग के साथ उच्च-वफादारी छवियाँ उत्पन्न करें।
Stability AI का Stable Diffusion 3.5 एक मल्टीमोडल डिफ्यूजन ट्रांसफॉर्मर (MMDiT) है जो ओपन-वेट इमेज जनरेशन के लिए नया मानक स्थापित करता है। यह तीन वेरिएंट में आता है: लार्ज (8B पैरामीटर), मध्यम (2.5B पैरामीटर), और लार्ज टर्बो (8B, 4-स्टेप इन्फरेंस के लिए डिस्टिल्ड)। इसका प्रमुख फीचर इसका सटीक टेक्स्ट रेंडरिंग है — SD 3.5 विश्वसनीय रूप से जनरेट की गई छवियों के भीतर पठनीय टेक्स्ट रख सकता है, जो अधिकतर पहले के मॉडलों के लिए चुनौतीपूर्ण था।
पर Clore.ai आप SD 3.5 को चलाने के लिए आवश्यक GPU पावर को केवल $0.30/दिन जैसी कम दर पर किराए पर ले सकते हैं और प्रति घंटे सैकड़ों इमेजेज़ जनरेट कर सकते हैं।
प्रमुख विशेषताएँ
तीन वेरिएंट — लार्ज (8B, उच्चतम गुणवत्ता), मीडियम (2.5B, तेज़ और हल्का), लार्ज टर्बो (8B, 4-स्टेप डिस्टिल्ड)।
सटीक टेक्स्ट रेंडरिंग — छवियों के भीतर पठनीय टेक्स्ट, साइन, लेबल और टाइपोग्राफी जनरेट करता है।
MMDiT आर्किटेक्चर — बेहतर प्रॉम्प्ट अनुपालन के लिए संयुक्त इमेज-टेक्स्ट अटेंशन।
1024×1024 नेटिव रेज़ोल्यूशन — अपस्केलिंग ट्रिक्स के बिना साफ आउटपुट।
लचीले आस्पेक्ट रेशियो — गैर-वर्गाकार आउटपुट्स (768×1344, 1344×768, आदि) को बिना गुणवत्ता हानि के संभालता है।
नेटिव diffusers समर्थन —
StableDiffusion3Pipelineमेंdiffusers >= 0.30.ओपन वेट्स — Stability AI Community License; अधिकांश वाणिज्यिक उपयोग के लिए मुफ़्त।
आवश्यकताएँ
GPU VRAM
12 GB (मीडियम)
24 GB (लार्ज / टर्बो)
सिस्टम RAM
16 GB
32 GB
डिस्क
20 GB
40 GB
Python
3.10+
3.11
CUDA
12.1+
12.4
diffusers
0.30+
नवीनतम
Clore.ai GPU सिफारिश: एक RTX 4090 (24 GB, लगभग $0.5–2/दिन) सभी तीन वेरिएंट्स को पूर्ण गति पर चलाता है। मीडियम मॉडल के लिए, RTX 3090 (24 GB, लगभग $0.3–1/दिन) या यहां तक कि 16 GB कार्ड पर्याप्त और सस्ता है।
त्वरित प्रारम्भ
उपयोग के उदाहरण
SD 3.5 लार्ज — अधिकतम गुणवत्ता
SD 3.5 लार्ज टर्बो — 4-स्टेप तेज़ जनरेशन
SD 3.5 मीडियम — हल्का विकल्प
विभिन्न आस्पेक्ट रेशियो के साथ बैच जनरेशन
Clore.ai उपयोगकर्ताओं के लिए सुझाव
इटरेशन के लिए टर्बो, अंतिम के लिए लार्ज — आइडिया जल्दी एक्सप्लोर करने के लिए 4-स्टेप टर्बो वेरिएंट का उपयोग करें, फिर अंतिम रेंडर के लिए लार्ज (28 स्टेप्स) पर स्विच करें।
guidance_scale=3.5 — SD 3.5 लार्ज पुराने Stable Diffusion मॉडलों की तुलना में कम CFG पर बेहतर काम करता है। 5.0 से ऊपर जाना अक्सर ओवर्सेचुरेशन का कारण बनता है।
टर्बो को guidance_scale=0 चाहिए — डिस्टिल्ड मॉडल में पहले से ही गाइडेंस समाहित होता है; और जोड़ने से आउटपुट खराब होता है।
छवियों में टेक्स्ट — SD 3.5 की टेक्स्ट रेंडरिंग मजबूत है लेकिन परिपूर्ण नहीं है। जिस सटीक टेक्स्ट को आप चाहते हैं उसके चारों ओर उद्धरण चिन्हों का उपयोग करें:
'OPEN 24 HOURS'. इसे छोटा रखें (अधिकतम 3–5 शब्द)।वेट्स को कैश करें — सेट करें
HF_HOME=/workspace/hf_cacheस्थायी स्टोरेज पर। लार्ज डिस्क पर लगभग ~16 GB है।लार्ज के लिए bf16, मीडियम के लिए fp16 — 8B मॉडलों को bf16 में प्रशिक्षण दिया गया था; 2.5B मीडियम fp16 में ठीक चलता है।
बॅच को कुशल बनाएं — SD 3.5 लार्ज एक RTX 4090 पर ~3 सेकंड में एक 1024×1024 इमेज जनरेट करता है। बड़े पैमाने पर जनरेशन के लिए रात भर बैच करें।
HF लाइसेंस स्वीकार करें — डाउनलोड से पहले HuggingFace मॉडल पेज पर आपको मॉडल लाइसेंस स्वीकार करना होगा। इसमें लॉग इन करें
huggingface-cli login.
समस्याओं का निवारण
OutOfMemoryError लार्ज के साथ
उपयोग करें pipe.enable_model_cpu_offload(); या मीडियम वेरिएंट पर स्विच करें
छवि में खराब टेक्स्ट
टेक्स्ट को छोटा रखें (3–5 शब्द); प्रॉम्प्ट में इसे उद्धरणों में रखें; बढ़ाएँ num_inference_steps को 35
ओवरसैचुरेटेड रंग
कम करें guidance_scale — लार्ज के लिए 2.5–3.5 आज़माएं; टर्बो के लिए 0.0 का उपयोग करें
मॉडल डाउनलोड करते समय 403 त्रुटि
लाइसेंस स्वीकार करें पर https://huggingface.co/stabilityai/stable-diffusion-3.5-large और चलाएं huggingface-cli login
पहली बार धीमा
लार्ज के लिए प्रारंभिक डाउनलोड ~16 GB है; बाद की बारें कैश का उपयोग करती हैं
KeyError: 'text_encoder_3'
diffusers अपडेट करें: pip install -U diffusers transformers
काली छवि आउटपुट
सुनिश्चित करें torch_dtype=torch.bfloat16 लार्ज/टर्बो के लिए; कुछ कार्ड पर fp32 से मौन विफलताएं हो सकती हैं
Last updated
Was this helpful?