Stable Diffusion 3.5

Erzeugen Sie hochauflösende Bilder mit genauer Textrendering-Verarbeitung mittels Stable Diffusion 3.5 auf Clore.ai GPUs.

Stable Diffusion 3.5 von Stability AI ist ein Multimodaler Diffusions-Transformer (MMDiT), der einen neuen Standard für Open-Weight-Bilderzeugung setzt. Er ist in drei Varianten erhältlich: Large (8B Parameter), Mittel (2,5B Parameter), und Large Turbo (8B, für 4-Schritt-Inferenz destilliert). Das herausragende Merkmal ist die genaue Textrendering-Fähigkeit — SD 3.5 kann zuverlässig lesbaren Text in erzeugten Bildern platzieren, eine Fähigkeit, mit der die meisten früheren Modelle Probleme hatten.

An Clore.aiarrow-up-right Sie können die GPU-Leistung, die SD 3.5 benötigt, bereits ab etwa 0,30 $/Tag mieten und Hunderte von Bildern pro Stunde erzeugen.

Hauptmerkmale

  • Drei Varianten — Large (8B, höchste Qualität), Medium (2,5B, schnell und leicht), Large Turbo (8B, 4-Schritt-destilliert).

  • Genaues Textrendering — erzeugt lesbaren Text, Schilder, Etiketten und Typografie innerhalb von Bildern.

  • MMDiT-Architektur — gemeinsame Bild-Text-Attention für überlegene Prompt-Treue.

  • 1024×1024 native Auflösung — sauberes Ausgabeergebnis ohne Upscaling-Tricks.

  • Flexible Seitenverhältnisse — verarbeitet nicht-quadratische Ausgaben (768×1344, 1344×768 usw.) ohne Qualitätsverlust.

  • Native diffusers-UnterstützungStableDiffusion3Pipeline in diffusers >= 0.30.

  • Offene Gewichte — Stability AI Community License; für die meisten kommerziellen Nutzungen kostenlos.

Anforderungen

Komponente
Minimum
Empfohlen

GPU-VRAM

12 GB (Medium)

24 GB (Large / Turbo)

System-RAM

16 GB

32 GB

Festplatte

20 GB

40 GB

Python

3.10+

3.11

CUDA

12.1+

12.4

diffusers

0.30+

neueste

Clore.ai GPU-Empfehlung: Ein RTX 4090 (24 GB, ~0,5–2 $/Tag) führt alle drei Varianten mit voller Geschwindigkeit aus. Für das Medium-Modell ist eine RTX 3090 (24 GB, ~0,3–1 $/Tag) oder sogar eine 16-GB-Karte ausreichend und günstiger.

Schnellstart

Beispielanwendungen

SD 3.5 Large — Maximale Qualität

SD 3.5 Large Turbo — 4-Schritt-Schnellgenerierung

SD 3.5 Medium — Leichtgewicht-Option

Batch-Generierung mit unterschiedlichen Seitenverhältnissen

Tipps für Clore.ai-Nutzer

  1. Turbo für Iteration, Large für Finales — verwenden Sie die 4-Schritt-Turbo-Variante, um Prompt-Ideen schnell zu erkunden, und wechseln Sie dann für das endgültige Rendering zu Large (28 Schritte).

  2. guidance_scale=3.5 — SD 3.5 Large funktioniert am besten mit einem niedrigeren CFG als ältere Stable-Diffusion-Modelle. Werte über 5,0 führen oft zu Übersättigung.

  3. Turbo benötigt guidance_scale=0 — das destillierte Modell hat die Führung bereits eingebaut; zusätzliches Hinzufügen verschlechtert das Ergebnis.

  4. Text in Bildern — das Textrendering von SD 3.5 ist stark, aber nicht perfekt. Setzen Sie Anführungszeichen um den genauen Text, den Sie möchten: 'OPEN 24 HOURS'. Halten Sie ihn kurz (max. 3–5 Wörter).

  5. Gewichte cachen — setze HF_HOME=/workspace/hf_cache auf persistentem Speicher. Large belegt auf der Festplatte ~16 GB.

  6. bf16 für Large, fp16 für Medium — die 8B-Modelle wurden in bf16 trainiert; das 2,5B Medium läuft gut in fp16.

  7. Effizient batchen — SD 3.5 Large erzeugt ein 1024×1024-Bild in ~3 Sekunden auf einer RTX 4090. Batchen Sie über Nacht für Massenproduktion.

  8. HF-Lizenz akzeptieren — Sie müssen die Modell-Lizenz auf der HuggingFace-Modelseite akzeptieren, bevor Sie herunterladen. Melden Sie sich an mit huggingface-cli login.

Fehlerbehebung

Problem
Behebe

OutOfMemoryError mit Large

Verwenden Sie pipe.enable_model_cpu_offload(); oder wechseln Sie zur Medium-Variante

Verzerrter Text im Bild

Halten Sie den Text kurz (3–5 Wörter); setzen Sie ihn in Anführungszeichen im Prompt; erhöhen Sie num_inference_steps auf 35

Übersättigte Farben

Niedriger guidance_scale — versuchen Sie 2,5–3,5 für Large; verwenden Sie 0,0 für Turbo

403-Fehler beim Herunterladen des Modells

Akzeptieren Sie die Lizenz unter https://huggingface.co/stabilityai/stable-diffusion-3.5-large und führen Sie aus huggingface-cli login

Langsamer erster Lauf

Der anfängliche Download beträgt ~16 GB für Large; nachfolgende Läufe verwenden den Cache

KeyError: 'text_encoder_3'

Diffusers aktualisieren: pip install -U diffusers transformers

Schwarze Bildausgabe

Stelle sicher, dass torch_dtype=torch.bfloat16 für Large/Turbo; fp32 kann auf einigen Karten stille Fehler verursachen

Zuletzt aktualisiert

War das hilfreich?