> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-de/bildgenerierung/stable-diffusion-3-5.md).

# Stable Diffusion 3.5

Stable Diffusion 3.5 von Stability AI ist ein Multimodaler Diffusions-Transformer (MMDiT), der einen neuen Standard für Open-Weight-Bilderzeugung setzt. Er ist in drei Varianten erhältlich: **Large** (8B Parameter), **Mittel** (2,5B Parameter), und **Large Turbo** (8B, für 4-Schritt-Inferenz destilliert). Das herausragende Merkmal ist die genaue Textrendering-Fähigkeit — SD 3.5 kann zuverlässig lesbaren Text in erzeugten Bildern platzieren, eine Fähigkeit, mit der die meisten früheren Modelle Probleme hatten.

An [Clore.ai](https://clore.ai/) Sie können die GPU-Leistung, die SD 3.5 benötigt, bereits ab etwa 0,30 $/Tag mieten und Hunderte von Bildern pro Stunde erzeugen.

## Hauptmerkmale

* **Drei Varianten** — Large (8B, höchste Qualität), Medium (2,5B, schnell und leicht), Large Turbo (8B, 4-Schritt-destilliert).
* **Genaues Textrendering** — erzeugt lesbaren Text, Schilder, Etiketten und Typografie innerhalb von Bildern.
* **MMDiT-Architektur** — gemeinsame Bild-Text-Attention für überlegene Prompt-Treue.
* **1024×1024 native Auflösung** — sauberes Ausgabeergebnis ohne Upscaling-Tricks.
* **Flexible Seitenverhältnisse** — verarbeitet nicht-quadratische Ausgaben (768×1344, 1344×768 usw.) ohne Qualitätsverlust.
* **Native diffusers-Unterstützung** — `StableDiffusion3Pipeline` in `diffusers >= 0.30`.
* **Offene Gewichte** — Stability AI Community License; für die meisten kommerziellen Nutzungen kostenlos.

## Anforderungen

| Komponente | Minimum        | Empfohlen             |
| ---------- | -------------- | --------------------- |
| GPU-VRAM   | 12 GB (Medium) | 24 GB (Large / Turbo) |
| System-RAM | 16 GB          | 32 GB                 |
| Festplatte | 20 GB          | 40 GB                 |
| Python     | 3.10+          | 3.11                  |
| CUDA       | 12.1+          | 12.4                  |
| diffusers  | 0.30+          | neueste               |

**Clore.ai GPU-Empfehlung:** Ein **RTX 4090** (24 GB, \~0,5–2 $/Tag) führt alle drei Varianten mit voller Geschwindigkeit aus. Für das Medium-Modell ist eine **RTX 3090** (24 GB, \~0,3–1 $/Tag) oder sogar eine 16-GB-Karte ausreichend und günstiger.

## Schnellstart

```bash
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124
pip install diffusers transformers accelerate sentencepiece protobuf

python -c "import torch; print(torch.cuda.get_device_name(0))"
```

## Beispielanwendungen

### SD 3.5 Large — Maximale Qualität

```python
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

image = pipe(
    prompt=(
        "Ein verwittertes Holzschild mit der Aufschrift 'OPEN 24 HOURS', das hängt an "
        "einer rostigen Kette vor einem neonbeleuchteten Diner, regnerische Nacht, Reflexionen "
        "auf nassem Asphalt, kinoreife Fotografie"
    ),
    negative_prompt="verschwommener, deformierter Text, niedrige Qualität",
    guidance_scale=3.5,
    num_inference_steps=28,
    width=1024,
    height=1024,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("diner_sign.png")
print("Saved diner_sign.png")
```

### SD 3.5 Large Turbo — 4-Schritt-Schnellgenerierung

```python
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large-turbo",
    torch_dtype=torch.bfloat16,
).to("cuda")

# Turbo-Variante: nur 4 Schritte nötig, guidance_scale=0 (destilliert)
image = pipe(
    prompt="Makrofoto eines mechanischen Uhrwerks, filigrane Zahnräder, goldenes Licht",
    guidance_scale=0.0,
    num_inference_steps=4,
    width=1024,
    height=1024,
).images[0]

image.save("watch_turbo.png")
```

### SD 3.5 Medium — Leichtgewicht-Option

```python
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-medium",
    torch_dtype=torch.float16,
).to("cuda")

image = pipe(
    prompt="Isometrische Ansicht eines gemütlichen Café-Innenraums, Pixel-Art-Stil, warme Beleuchtung",
    guidance_scale=4.0,
    num_inference_steps=28,
    width=1024,
    height=1024,
).images[0]

image.save("coffee_shop_medium.png")
```

### Batch-Generierung mit unterschiedlichen Seitenverhältnissen

```python
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large",
    torch_dtype=torch.bfloat16,
).to("cuda")

jobs = [
    {"prompt": "Porträt eines Astronauten in einem Sonnenblumenfeld", "w": 768, "h": 1344},
    {"prompt": "Panoramalandschaft der isländischen Hochländer, stimmungsvolle Himmel", "w": 1344, "h": 768},
    {"prompt": "Produktfoto einer Parfümflasche auf Marmoroberfläche", "w": 1024, "h": 1024},
]

for i, job in enumerate(jobs):
    img = pipe(
        prompt=job["prompt"],
        guidance_scale=3.5,
        num_inference_steps=28,
        width=job["w"],
        height=job["h"],
    ).images[0]
    img.save(f"batch_{i:03d}.png")
    print(f"[{i+1}/{len(jobs)}] {job['w']}x{job['h']} fertig")
```

## Tipps für Clore.ai-Nutzer

1. **Turbo für Iteration, Large für Finales** — verwenden Sie die 4-Schritt-Turbo-Variante, um Prompt-Ideen schnell zu erkunden, und wechseln Sie dann für das endgültige Rendering zu Large (28 Schritte).
2. **guidance\_scale=3.5** — SD 3.5 Large funktioniert am besten mit einem niedrigeren CFG als ältere Stable-Diffusion-Modelle. Werte über 5,0 führen oft zu Übersättigung.
3. **Turbo benötigt guidance\_scale=0** — das destillierte Modell hat die Führung bereits eingebaut; zusätzliches Hinzufügen verschlechtert das Ergebnis.
4. **Text in Bildern** — das Textrendering von SD 3.5 ist stark, aber nicht perfekt. Setzen Sie Anführungszeichen um den genauen Text, den Sie möchten: `'OPEN 24 HOURS'`. Halten Sie ihn kurz (max. 3–5 Wörter).
5. **Gewichte cachen** — setze `HF_HOME=/workspace/hf_cache` auf persistentem Speicher. Large belegt auf der Festplatte \~16 GB.
6. **bf16 für Large, fp16 für Medium** — die 8B-Modelle wurden in bf16 trainiert; das 2,5B Medium läuft gut in fp16.
7. **Effizient batchen** — SD 3.5 Large erzeugt ein 1024×1024-Bild in \~3 Sekunden auf einer RTX 4090. Batchen Sie über Nacht für Massenproduktion.
8. **HF-Lizenz akzeptieren** — Sie müssen die Modell-Lizenz auf der HuggingFace-Modelseite akzeptieren, bevor Sie herunterladen. Melden Sie sich an mit `huggingface-cli login`.

## Fehlerbehebung

| Problem                                   | Behebe                                                                                                                                      |
| ----------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` mit Large              | Verwenden Sie `pipe.enable_model_cpu_offload()`; oder wechseln Sie zur Medium-Variante                                                      |
| Verzerrter Text im Bild                   | Halten Sie den Text kurz (3–5 Wörter); setzen Sie ihn in Anführungszeichen im Prompt; erhöhen Sie `num_inference_steps` auf 35              |
| Übersättigte Farben                       | Niedriger `guidance_scale` — versuchen Sie 2,5–3,5 für Large; verwenden Sie 0,0 für Turbo                                                   |
| 403-Fehler beim Herunterladen des Modells | Akzeptieren Sie die Lizenz unter `https://huggingface.co/stabilityai/stable-diffusion-3.5-large` und führen Sie aus `huggingface-cli login` |
| Langsamer erster Lauf                     | Der anfängliche Download beträgt \~16 GB für Large; nachfolgende Läufe verwenden den Cache                                                  |
| `KeyError: 'text_encoder_3'`              | Diffusers aktualisieren: `pip install -U diffusers transformers`                                                                            |
| Schwarze Bildausgabe                      | Stelle sicher, dass `torch_dtype=torch.bfloat16` für Large/Turbo; fp32 kann auf einigen Karten stille Fehler verursachen                    |


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-de/bildgenerierung/stable-diffusion-3-5.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
