Stable Diffusion 3.5

Hohe‑Fidelity‑Bilder mit genauer Textrendering‑Unterstützung mit Stable Diffusion 3.5 auf Clore.ai‑GPUs erzeugen.

Stable Diffusion 3.5 von Stability AI ist ein Multimodaler Diffusions-Transformer (MMDiT), der einen neuen Standard für Open-Weight-Bilderzeugung setzt. Er ist in drei Varianten erhältlich: Large (8B Parameter), Mittel (2,5B Parameter), und Large Turbo (8B, für 4-Schritt-Inferenz destilliert). Das herausragende Merkmal ist die genaue Textrendering-Fähigkeit — SD 3.5 kann zuverlässig lesbaren Text in erzeugten Bildern platzieren, eine Fähigkeit, mit der die meisten früheren Modelle Probleme hatten.

An Clore.ai Sie können die GPU-Leistung, die SD 3.5 benötigt, bereits ab etwa 0,30 $/Tag mieten und Hunderte von Bildern pro Stunde erzeugen.

Hauptmerkmale

Drei Varianten — Large (8B, höchste Qualität), Medium (2,5B, schnell und leicht), Large Turbo (8B, 4-Schritt-destilliert).
Genaues Textrendering — erzeugt lesbaren Text, Schilder, Etiketten und Typografie innerhalb von Bildern.
MMDiT-Architektur — gemeinsame Bild-Text-Attention für überlegene Prompt-Treue.
1024×1024 native Auflösung — sauberes Ausgabeergebnis ohne Upscaling-Tricks.
Flexible Seitenverhältnisse — verarbeitet nicht-quadratische Ausgaben (768×1344, 1344×768 usw.) ohne Qualitätsverlust.
Native diffusers-Unterstützung — StableDiffusion3Pipeline in diffusers >= 0.30.
Offene Gewichte — Stability AI Community License; für die meisten kommerziellen Nutzungen kostenlos.

Anforderungen

Komponente

Minimum

Schnellstart

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124
pip install diffusers transformers accelerate sentencepiece protobuf

python -c "import torch; print(torch.cuda.get_device_name(0))"

Beispielanwendungen

SD 3.5 Large — Maximale Qualität

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

image = pipe(
    prompt=(
        "Ein verwittertes Holzschild mit der Aufschrift 'OPEN 24 HOURS', das hängt an "
        "einer rostigen Kette vor einem neonbeleuchteten Diner, regnerische Nacht, Reflexionen "
        "auf nassem Asphalt, kinoreife Fotografie"
    ),
    negative_prompt="verschwommener, deformierter Text, niedrige Qualität",
    guidance_scale=3.5,
    num_inference_steps=28,
    width=1024,
    height=1024,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("diner_sign.png")
print("Saved diner_sign.png")

SD 3.5 Large Turbo — 4-Schritt-Schnellgenerierung

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large-turbo",
    torch_dtype=torch.bfloat16,
).to("cuda")

# Turbo-Variante: nur 4 Schritte nötig, guidance_scale=0 (destilliert)
image = pipe(
    prompt="Makrofoto eines mechanischen Uhrwerks, filigrane Zahnräder, goldenes Licht",
    guidance_scale=0.0,
    num_inference_steps=4,
    width=1024,
    height=1024,
).images[0]

image.save("watch_turbo.png")

SD 3.5 Medium — Leichtgewicht-Option

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-medium",
    torch_dtype=torch.float16,
).to("cuda")

image = pipe(
    prompt="Isometrische Ansicht eines gemütlichen Café-Innenraums, Pixel-Art-Stil, warme Beleuchtung",
    guidance_scale=4.0,
    num_inference_steps=28,
    width=1024,
    height=1024,
).images[0]

image.save("coffee_shop_medium.png")

Batch-Generierung mit unterschiedlichen Seitenverhältnissen

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large",
    torch_dtype=torch.bfloat16,
).to("cuda")

jobs = [
    {"prompt": "Porträt eines Astronauten in einem Sonnenblumenfeld", "w": 768, "h": 1344},
    {"prompt": "Panoramalandschaft der isländischen Hochländer, stimmungsvolle Himmel", "w": 1344, "h": 768},
    {"prompt": "Produktfoto einer Parfümflasche auf Marmoroberfläche", "w": 1024, "h": 1024},
]

for i, job in enumerate(jobs):
    img = pipe(
        prompt=job["prompt"],
        guidance_scale=3.5,
        num_inference_steps=28,
        width=job["w"],
        height=job["h"],
    ).images[0]
    img.save(f"batch_{i:03d}.png")
    print(f"[{i+1}/{len(jobs)}] {job['w']}x{job['h']} fertig")

Tipps für Clore.ai-Nutzer

Turbo für Iteration, Large für Finales — verwenden Sie die 4-Schritt-Turbo-Variante, um Prompt-Ideen schnell zu erkunden, und wechseln Sie dann für das endgültige Rendering zu Large (28 Schritte).
guidance_scale=3.5 — SD 3.5 Large funktioniert am besten mit einem niedrigeren CFG als ältere Stable-Diffusion-Modelle. Werte über 5,0 führen oft zu Übersättigung.
Turbo benötigt guidance_scale=0 — das destillierte Modell hat die Führung bereits eingebaut; zusätzliches Hinzufügen verschlechtert das Ergebnis.
Text in Bildern — das Textrendering von SD 3.5 ist stark, aber nicht perfekt. Setzen Sie Anführungszeichen um den genauen Text, den Sie möchten: 'OPEN 24 HOURS'. Halten Sie ihn kurz (max. 3–5 Wörter).
Gewichte cachen — setze HF_HOME=/workspace/hf_cache auf persistentem Speicher. Large belegt auf der Festplatte ~16 GB.
bf16 für Large, fp16 für Medium — die 8B-Modelle wurden in bf16 trainiert; das 2,5B Medium läuft gut in fp16.
Effizient batchen — SD 3.5 Large erzeugt ein 1024×1024-Bild in ~3 Sekunden auf einer RTX 4090. Batchen Sie über Nacht für Massenproduktion.
HF-Lizenz akzeptieren — Sie müssen die Modell-Lizenz auf der HuggingFace-Modelseite akzeptieren, bevor Sie herunterladen. Melden Sie sich an mit huggingface-cli login.

Fehlerbehebung

Problem

Behebe

OutOfMemoryError mit Large

Verwenden Sie pipe.enable_model_cpu_offload(); oder wechseln Sie zur Medium-Variante

Verzerrter Text im Bild

Halten Sie den Text kurz (3–5 Wörter); setzen Sie ihn in Anführungszeichen im Prompt; erhöhen Sie num_inference_steps auf 35

Übersättigte Farben

Niedriger guidance_scale — versuchen Sie 2,5–3,5 für Large; verwenden Sie 0,0 für Turbo

403-Fehler beim Herunterladen des Modells

Akzeptieren Sie die Lizenz unter https://huggingface.co/stabilityai/stable-diffusion-3.5-large und führen Sie aus huggingface-cli login

Langsamer erster Lauf

Der anfängliche Download beträgt ~16 GB für Large; nachfolgende Läufe verwenden den Cache

KeyError: 'text_encoder_3'

Diffusers aktualisieren: pip install -U diffusers transformers

Schwarze Bildausgabe

Stelle sicher, dass torch_dtype=torch.bfloat16 für Large/Turbo; fp32 kann auf einigen Karten stille Fehler verursachen

VorherigeFLUX.1 NächsteStable Diffusion WebUI

Zuletzt aktualisiert vor 24 Tagen

War das hilfreich?

hashtagHauptmerkmale

hashtagAnforderungen

hashtagSchnellstart

hashtagBeispielanwendungen

hashtagSD 3.5 Large — Maximale Qualität

hashtagSD 3.5 Large Turbo — 4-Schritt-Schnellgenerierung

hashtagSD 3.5 Medium — Leichtgewicht-Option

hashtagBatch-Generierung mit unterschiedlichen Seitenverhältnissen

hashtagTipps für Clore.ai-Nutzer

hashtagFehlerbehebung