# Stable Diffusion 3.5

Stable Diffusion 3.5 von Stability AI ist ein Multimodaler Diffusions-Transformer (MMDiT), der einen neuen Standard für Open-Weight-Bilderzeugung setzt. Er ist in drei Varianten erhältlich: **Large** (8B Parameter), **Mittel** (2,5B Parameter), und **Large Turbo** (8B, für 4-Schritt-Inferenz destilliert). Das herausragende Merkmal ist die genaue Textrendering-Fähigkeit — SD 3.5 kann zuverlässig lesbaren Text in erzeugten Bildern platzieren, eine Fähigkeit, mit der die meisten früheren Modelle Probleme hatten.

An [Clore.ai](https://clore.ai/) Sie können die GPU-Leistung, die SD 3.5 benötigt, bereits ab etwa 0,30 $/Tag mieten und Hunderte von Bildern pro Stunde erzeugen.

## Hauptmerkmale

* **Drei Varianten** — Large (8B, höchste Qualität), Medium (2,5B, schnell und leicht), Large Turbo (8B, 4-Schritt-destilliert).
* **Genaues Textrendering** — erzeugt lesbaren Text, Schilder, Etiketten und Typografie innerhalb von Bildern.
* **MMDiT-Architektur** — gemeinsame Bild-Text-Attention für überlegene Prompt-Treue.
* **1024×1024 native Auflösung** — sauberes Ausgabeergebnis ohne Upscaling-Tricks.
* **Flexible Seitenverhältnisse** — verarbeitet nicht-quadratische Ausgaben (768×1344, 1344×768 usw.) ohne Qualitätsverlust.
* **Native diffusers-Unterstützung** — `StableDiffusion3Pipeline` in `diffusers >= 0.30`.
* **Offene Gewichte** — Stability AI Community License; für die meisten kommerziellen Nutzungen kostenlos.

## Anforderungen

| Komponente | Minimum        | Empfohlen             |
| ---------- | -------------- | --------------------- |
| GPU-VRAM   | 12 GB (Medium) | 24 GB (Large / Turbo) |
| System-RAM | 16 GB          | 32 GB                 |
| Festplatte | 20 GB          | 40 GB                 |
| Python     | 3.10+          | 3.11                  |
| CUDA       | 12.1+          | 12.4                  |
| diffusers  | 0.30+          | neueste               |

**Clore.ai GPU-Empfehlung:** Ein **RTX 4090** (24 GB, \~0,5–2 $/Tag) führt alle drei Varianten mit voller Geschwindigkeit aus. Für das Medium-Modell ist eine **RTX 3090** (24 GB, \~0,3–1 $/Tag) oder sogar eine 16-GB-Karte ausreichend und günstiger.

## Schnellstart

```bash
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124
pip install diffusers transformers accelerate sentencepiece protobuf

python -c "import torch; print(torch.cuda.get_device_name(0))"
```

## Beispielanwendungen

### SD 3.5 Large — Maximale Qualität

```python
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

image = pipe(
    prompt=(
        "Ein verwittertes Holzschild mit der Aufschrift 'OPEN 24 HOURS', das hängt an "
        "einer rostigen Kette vor einem neonbeleuchteten Diner, regnerische Nacht, Reflexionen "
        "auf nassem Asphalt, kinoreife Fotografie"
    ),
    negative_prompt="verschwommener, deformierter Text, niedrige Qualität",
    guidance_scale=3.5,
    num_inference_steps=28,
    width=1024,
    height=1024,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("diner_sign.png")
print("Saved diner_sign.png")
```

### SD 3.5 Large Turbo — 4-Schritt-Schnellgenerierung

```python
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large-turbo",
    torch_dtype=torch.bfloat16,
).to("cuda")

# Turbo-Variante: nur 4 Schritte nötig, guidance_scale=0 (destilliert)
image = pipe(
    prompt="Makrofoto eines mechanischen Uhrwerks, filigrane Zahnräder, goldenes Licht",
    guidance_scale=0.0,
    num_inference_steps=4,
    width=1024,
    height=1024,
).images[0]

image.save("watch_turbo.png")
```

### SD 3.5 Medium — Leichtgewicht-Option

```python
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-medium",
    torch_dtype=torch.float16,
).to("cuda")

image = pipe(
    prompt="Isometrische Ansicht eines gemütlichen Café-Innenraums, Pixel-Art-Stil, warme Beleuchtung",
    guidance_scale=4.0,
    num_inference_steps=28,
    width=1024,
    height=1024,
).images[0]

image.save("coffee_shop_medium.png")
```

### Batch-Generierung mit unterschiedlichen Seitenverhältnissen

```python
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large",
    torch_dtype=torch.bfloat16,
).to("cuda")

jobs = [
    {"prompt": "Porträt eines Astronauten in einem Sonnenblumenfeld", "w": 768, "h": 1344},
    {"prompt": "Panoramalandschaft der isländischen Hochländer, stimmungsvolle Himmel", "w": 1344, "h": 768},
    {"prompt": "Produktfoto einer Parfümflasche auf Marmoroberfläche", "w": 1024, "h": 1024},
]

for i, job in enumerate(jobs):
    img = pipe(
        prompt=job["prompt"],
        guidance_scale=3.5,
        num_inference_steps=28,
        width=job["w"],
        height=job["h"],
    ).images[0]
    img.save(f"batch_{i:03d}.png")
    print(f"[{i+1}/{len(jobs)}] {job['w']}x{job['h']} fertig")
```

## Tipps für Clore.ai-Nutzer

1. **Turbo für Iteration, Large für Finales** — verwenden Sie die 4-Schritt-Turbo-Variante, um Prompt-Ideen schnell zu erkunden, und wechseln Sie dann für das endgültige Rendering zu Large (28 Schritte).
2. **guidance\_scale=3.5** — SD 3.5 Large funktioniert am besten mit einem niedrigeren CFG als ältere Stable-Diffusion-Modelle. Werte über 5,0 führen oft zu Übersättigung.
3. **Turbo benötigt guidance\_scale=0** — das destillierte Modell hat die Führung bereits eingebaut; zusätzliches Hinzufügen verschlechtert das Ergebnis.
4. **Text in Bildern** — das Textrendering von SD 3.5 ist stark, aber nicht perfekt. Setzen Sie Anführungszeichen um den genauen Text, den Sie möchten: `'OPEN 24 HOURS'`. Halten Sie ihn kurz (max. 3–5 Wörter).
5. **Gewichte cachen** — setze `HF_HOME=/workspace/hf_cache` auf persistentem Speicher. Large belegt auf der Festplatte \~16 GB.
6. **bf16 für Large, fp16 für Medium** — die 8B-Modelle wurden in bf16 trainiert; das 2,5B Medium läuft gut in fp16.
7. **Effizient batchen** — SD 3.5 Large erzeugt ein 1024×1024-Bild in \~3 Sekunden auf einer RTX 4090. Batchen Sie über Nacht für Massenproduktion.
8. **HF-Lizenz akzeptieren** — Sie müssen die Modell-Lizenz auf der HuggingFace-Modelseite akzeptieren, bevor Sie herunterladen. Melden Sie sich an mit `huggingface-cli login`.

## Fehlerbehebung

| Problem                                   | Behebe                                                                                                                                      |
| ----------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` mit Large              | Verwenden Sie `pipe.enable_model_cpu_offload()`; oder wechseln Sie zur Medium-Variante                                                      |
| Verzerrter Text im Bild                   | Halten Sie den Text kurz (3–5 Wörter); setzen Sie ihn in Anführungszeichen im Prompt; erhöhen Sie `num_inference_steps` auf 35              |
| Übersättigte Farben                       | Niedriger `guidance_scale` — versuchen Sie 2,5–3,5 für Large; verwenden Sie 0,0 für Turbo                                                   |
| 403-Fehler beim Herunterladen des Modells | Akzeptieren Sie die Lizenz unter `https://huggingface.co/stabilityai/stable-diffusion-3.5-large` und führen Sie aus `huggingface-cli login` |
| Langsamer erster Lauf                     | Der anfängliche Download beträgt \~16 GB für Large; nachfolgende Läufe verwenden den Cache                                                  |
| `KeyError: 'text_encoder_3'`              | Diffusers aktualisieren: `pip install -U diffusers transformers`                                                                            |
| Schwarze Bildausgabe                      | Stelle sicher, dass `torch_dtype=torch.bfloat16` für Large/Turbo; fp32 kann auf einigen Karten stille Fehler verursachen                    |
