Stable Diffusion 3.5

Clore.ai GPUs पर Stable Diffusion 3.5 का उपयोग करके सटीक टेक्स्ट रेंडरिंग के साथ उच्च-विश्वसनीयता वाली छवियाँ जनरेट करें।

Stability AI का Stable Diffusion 3.5 एक मल्टीमोडल डिफ्यूजन ट्रांसफॉर्मर (MMDiT) है जो ओपन-वेट इमेज जनरेशन के लिए नया मानक स्थापित करता है। यह तीन वेरिएंट में आता है: लार्ज (8B पैरामीटर), मध्यम (2.5B पैरामीटर), और लार्ज टर्बो (8B, 4-स्टेप इन्फरेंस के लिए डिस्टिल्ड)। इसका प्रमुख फीचर इसका सटीक टेक्स्ट रेंडरिंग है — SD 3.5 विश्वसनीय रूप से जनरेट की गई छवियों के भीतर पठनीय टेक्स्ट रख सकता है, जो अधिकतर पहले के मॉडलों के लिए चुनौतीपूर्ण था।

पर Clore.ai आप SD 3.5 को चलाने के लिए आवश्यक GPU पावर को केवल $0.30/दिन जैसी कम दर पर किराए पर ले सकते हैं और प्रति घंटे सैकड़ों इमेजेज़ जनरेट कर सकते हैं।

प्रमुख विशेषताएँ

तीन वेरिएंट — लार्ज (8B, उच्चतम गुणवत्ता), मीडियम (2.5B, तेज़ और हल्का), लार्ज टर्बो (8B, 4-स्टेप डिस्टिल्ड)।
सटीक टेक्स्ट रेंडरिंग — छवियों के भीतर पठनीय टेक्स्ट, साइन, लेबल और टाइपोग्राफी जनरेट करता है।
MMDiT आर्किटेक्चर — बेहतर प्रॉम्प्ट अनुपालन के लिए संयुक्त इमेज-टेक्स्ट अटेंशन।
1024×1024 नेटिव रेज़ोल्यूशन — अपस्केलिंग ट्रिक्स के बिना साफ आउटपुट।
लचीले आस्पेक्ट रेशियो — गैर-वर्गाकार आउटपुट्स (768×1344, 1344×768, आदि) को बिना गुणवत्ता हानि के संभालता है।
नेटिव diffusers समर्थन — StableDiffusion3Pipeline में diffusers >= 0.30.
ओपन वेट्स — Stability AI Community License; अधिकांश वाणिज्यिक उपयोग के लिए मुफ़्त।

आवश्यकताएँ

घटक

न्यूनतम

अनुशंसित

GPU VRAM

12 GB (मीडियम)

24 GB (लार्ज / टर्बो)

सिस्टम RAM

16 GB

32 GB

डिस्क

20 GB

40 GB

Python

3.10+

3.11

CUDA

12.1+

12.4

diffusers

0.30+

नवीनतम

Clore.ai GPU सिफारिश: एक RTX 4090 (24 GB, लगभग $0.5–2/दिन) सभी तीन वेरिएंट्स को पूर्ण गति पर चलाता है। मीडियम मॉडल के लिए, RTX 3090 (24 GB, लगभग $0.3–1/दिन) या यहां तक कि 16 GB कार्ड पर्याप्त और सस्ता है।

त्वरित प्रारम्भ

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124
pip install diffusers transformers accelerate sentencepiece protobuf

python -c "import torch; print(torch.cuda.get_device_name(0))"

उपयोग के उदाहरण

SD 3.5 लार्ज — अधिकतम गुणवत्ता

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

image = pipe(
    prompt=(
        "एक पुराना लकड़ी का साइन जिस पर 'OPEN 24 HOURS' लिखा है और वह लटका हुआ है "
        "एक जंग लगे चेन से बाहर एक नीयन-लाइटेड डाइनर के पास, बारिश भरी रात, परावर्तन "
        "गीले डामर पर, सिनेमैटिक फोटोग्राफी"
    ),
    negative_prompt="धुंधला, विकृत टेक्स्ट, कम गुणवत्ता",
    guidance_scale=3.5,
    num_inference_steps=28,
    width=1024,
    height=1024,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("diner_sign.png")
print("Saved diner_sign.png")

SD 3.5 लार्ज टर्बो — 4-स्टेप तेज़ जनरेशन

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large-turbo",
    torch_dtype=torch.bfloat16,
).to("cuda")

# टर्बो वेरिएंट: केवल 4 स्टेप्स की आवश्यकता, guidance_scale=0 (डिस्टिल्ड)
image = pipe(
    prompt="एक मैकेनिकल वॉच मूवमेंट का मैक्रो फोटो, जटिल गियर्स, सुनहरा प्रकाश",
    guidance_scale=0.0,
    num_inference_steps=4,
    width=1024,
    height=1024,
).images[0]

image.save("watch_turbo.png")

SD 3.5 मीडियम — हल्का विकल्प

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-medium",
    torch_dtype=torch.float16,
).to("cuda")

image = pipe(
    prompt="एक आरामदायक कॉफी शॉप के इंटीरियर का आइसोमेट्रिक दृश्य, पिक्सेल आर्ट स्टाइल, गर्म रोशनी",
    guidance_scale=4.0,
    num_inference_steps=28,
    width=1024,
    height=1024,
).images[0]

image.save("coffee_shop_medium.png")

विभिन्न आस्पेक्ट रेशियो के साथ बैच जनरेशन

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large",
    torch_dtype=torch.bfloat16,
).to("cuda")

jobs = [
    {"prompt": "सूरजमुखी के खेत में एक अंतरिक्ष यात्री का पोर्ट्रेट", "w": 768, "h": 1344},
    {"prompt": "आइसलैंडिक हाइलैंड्स का पैनोरमिक नज़ारा, उदास मौसम",
 "w": 1344, "h": 768},
    {"prompt": "एक संगमरमर सतह पर एक परफ्यूम बोतल का प्रोडक्ट फोटो", "w": 1024, "h": 1024},
]

for i, job in enumerate(jobs):
    img = pipe(
        prompt=job["prompt"],
        guidance_scale=3.5,
        num_inference_steps=28,
        width=job["w"],
        height=job["h"],
    ).images[0]
    img.save(f"batch_{i:03d}.png")
    print(f"[{i+1}/{len(jobs)}] {job['w']}x{job['h']} हो गया")

Clore.ai उपयोगकर्ताओं के लिए सुझाव

इटरेशन के लिए टर्बो, अंतिम के लिए लार्ज — आइडिया जल्दी एक्सप्लोर करने के लिए 4-स्टेप टर्बो वेरिएंट का उपयोग करें, फिर अंतिम रेंडर के लिए लार्ज (28 स्टेप्स) पर स्विच करें।
guidance_scale=3.5 — SD 3.5 लार्ज पुराने Stable Diffusion मॉडलों की तुलना में कम CFG पर बेहतर काम करता है। 5.0 से ऊपर जाना अक्सर ओवर्सेचुरेशन का कारण बनता है।
टर्बो को guidance_scale=0 चाहिए — डिस्टिल्ड मॉडल में पहले से ही गाइडेंस समाहित होता है; और जोड़ने से आउटपुट खराब होता है।
छवियों में टेक्स्ट — SD 3.5 की टेक्स्ट रेंडरिंग मजबूत है लेकिन परिपूर्ण नहीं है। जिस सटीक टेक्स्ट को आप चाहते हैं उसके चारों ओर उद्धरण चिन्हों का उपयोग करें: 'OPEN 24 HOURS'. इसे छोटा रखें (अधिकतम 3–5 शब्द)।
वेट्स को कैश करें — सेट करें HF_HOME=/workspace/hf_cache स्थायी स्टोरेज पर। लार्ज डिस्क पर लगभग ~16 GB है।
लार्ज के लिए bf16, मीडियम के लिए fp16 — 8B मॉडलों को bf16 में प्रशिक्षण दिया गया था; 2.5B मीडियम fp16 में ठीक चलता है।
बॅच को कुशल बनाएं — SD 3.5 लार्ज एक RTX 4090 पर ~3 सेकंड में एक 1024×1024 इमेज जनरेट करता है। बड़े पैमाने पर जनरेशन के लिए रात भर बैच करें।
HF लाइसेंस स्वीकार करें — डाउनलोड से पहले HuggingFace मॉडल पेज पर आपको मॉडल लाइसेंस स्वीकार करना होगा। इसमें लॉग इन करें huggingface-cli login.

समस्याओं का निवारण

समस्या

समाधान

OutOfMemoryError लार्ज के साथ

उपयोग करें pipe.enable_model_cpu_offload(); या मीडियम वेरिएंट पर स्विच करें

छवि में खराब टेक्स्ट

टेक्स्ट को छोटा रखें (3–5 शब्द); प्रॉम्प्ट में इसे उद्धरणों में रखें; बढ़ाएँ num_inference_steps को 35

ओवरसैचुरेटेड रंग

कम करें guidance_scale — लार्ज के लिए 2.5–3.5 आज़माएं; टर्बो के लिए 0.0 का उपयोग करें

मॉडल डाउनलोड करते समय 403 त्रुटि

लाइसेंस स्वीकार करें पर https://huggingface.co/stabilityai/stable-diffusion-3.5-large और चलाएं huggingface-cli login

पहली बार धीमा

लार्ज के लिए प्रारंभिक डाउनलोड ~16 GB है; बाद की बारें कैश का उपयोग करती हैं

KeyError: 'text_encoder_3'

diffusers अपडेट करें: pip install -U diffusers transformers

काली छवि आउटपुट

सुनिश्चित करें torch_dtype=torch.bfloat16 लार्ज/टर्बो के लिए; कुछ कार्ड पर fp32 से मौन विफलताएं हो सकती हैं

PreviousFLUX.1 NextStable Diffusion WebUI

Last updated 21 days ago

Was this helpful?

hashtagप्रमुख विशेषताएँ

hashtagआवश्यकताएँ

hashtagत्वरित प्रारम्भ

hashtagउपयोग के उदाहरण

hashtagSD 3.5 लार्ज — अधिकतम गुणवत्ता

hashtagSD 3.5 लार्ज टर्बो — 4-स्टेप तेज़ जनरेशन

hashtagSD 3.5 मीडियम — हल्का विकल्प

hashtagविभिन्न आस्पेक्ट रेशियो के साथ बैच जनरेशन

hashtagClore.ai उपयोगकर्ताओं के लिए सुझाव

hashtagसमस्याओं का निवारण