Stable Diffusion 3.5
Erzeugen Sie hochauflösende Bilder mit genauer Textrendering-Verarbeitung mittels Stable Diffusion 3.5 auf Clore.ai GPUs.
Stable Diffusion 3.5 von Stability AI ist ein Multimodaler Diffusions-Transformer (MMDiT), der einen neuen Standard für Open-Weight-Bilderzeugung setzt. Er ist in drei Varianten erhältlich: Large (8B Parameter), Mittel (2,5B Parameter), und Large Turbo (8B, für 4-Schritt-Inferenz destilliert). Das herausragende Merkmal ist die genaue Textrendering-Fähigkeit — SD 3.5 kann zuverlässig lesbaren Text in erzeugten Bildern platzieren, eine Fähigkeit, mit der die meisten früheren Modelle Probleme hatten.
An Clore.ai Sie können die GPU-Leistung, die SD 3.5 benötigt, bereits ab etwa 0,30 $/Tag mieten und Hunderte von Bildern pro Stunde erzeugen.
Hauptmerkmale
Drei Varianten — Large (8B, höchste Qualität), Medium (2,5B, schnell und leicht), Large Turbo (8B, 4-Schritt-destilliert).
Genaues Textrendering — erzeugt lesbaren Text, Schilder, Etiketten und Typografie innerhalb von Bildern.
MMDiT-Architektur — gemeinsame Bild-Text-Attention für überlegene Prompt-Treue.
1024×1024 native Auflösung — sauberes Ausgabeergebnis ohne Upscaling-Tricks.
Flexible Seitenverhältnisse — verarbeitet nicht-quadratische Ausgaben (768×1344, 1344×768 usw.) ohne Qualitätsverlust.
Native diffusers-Unterstützung —
StableDiffusion3Pipelineindiffusers >= 0.30.Offene Gewichte — Stability AI Community License; für die meisten kommerziellen Nutzungen kostenlos.
Anforderungen
GPU-VRAM
12 GB (Medium)
24 GB (Large / Turbo)
System-RAM
16 GB
32 GB
Festplatte
20 GB
40 GB
Python
3.10+
3.11
CUDA
12.1+
12.4
diffusers
0.30+
neueste
Clore.ai GPU-Empfehlung: Ein RTX 4090 (24 GB, ~0,5–2 $/Tag) führt alle drei Varianten mit voller Geschwindigkeit aus. Für das Medium-Modell ist eine RTX 3090 (24 GB, ~0,3–1 $/Tag) oder sogar eine 16-GB-Karte ausreichend und günstiger.
Schnellstart
Beispielanwendungen
SD 3.5 Large — Maximale Qualität
SD 3.5 Large Turbo — 4-Schritt-Schnellgenerierung
SD 3.5 Medium — Leichtgewicht-Option
Batch-Generierung mit unterschiedlichen Seitenverhältnissen
Tipps für Clore.ai-Nutzer
Turbo für Iteration, Large für Finales — verwenden Sie die 4-Schritt-Turbo-Variante, um Prompt-Ideen schnell zu erkunden, und wechseln Sie dann für das endgültige Rendering zu Large (28 Schritte).
guidance_scale=3.5 — SD 3.5 Large funktioniert am besten mit einem niedrigeren CFG als ältere Stable-Diffusion-Modelle. Werte über 5,0 führen oft zu Übersättigung.
Turbo benötigt guidance_scale=0 — das destillierte Modell hat die Führung bereits eingebaut; zusätzliches Hinzufügen verschlechtert das Ergebnis.
Text in Bildern — das Textrendering von SD 3.5 ist stark, aber nicht perfekt. Setzen Sie Anführungszeichen um den genauen Text, den Sie möchten:
'OPEN 24 HOURS'. Halten Sie ihn kurz (max. 3–5 Wörter).Gewichte cachen — setze
HF_HOME=/workspace/hf_cacheauf persistentem Speicher. Large belegt auf der Festplatte ~16 GB.bf16 für Large, fp16 für Medium — die 8B-Modelle wurden in bf16 trainiert; das 2,5B Medium läuft gut in fp16.
Effizient batchen — SD 3.5 Large erzeugt ein 1024×1024-Bild in ~3 Sekunden auf einer RTX 4090. Batchen Sie über Nacht für Massenproduktion.
HF-Lizenz akzeptieren — Sie müssen die Modell-Lizenz auf der HuggingFace-Modelseite akzeptieren, bevor Sie herunterladen. Melden Sie sich an mit
huggingface-cli login.
Fehlerbehebung
OutOfMemoryError mit Large
Verwenden Sie pipe.enable_model_cpu_offload(); oder wechseln Sie zur Medium-Variante
Verzerrter Text im Bild
Halten Sie den Text kurz (3–5 Wörter); setzen Sie ihn in Anführungszeichen im Prompt; erhöhen Sie num_inference_steps auf 35
Übersättigte Farben
Niedriger guidance_scale — versuchen Sie 2,5–3,5 für Large; verwenden Sie 0,0 für Turbo
403-Fehler beim Herunterladen des Modells
Akzeptieren Sie die Lizenz unter https://huggingface.co/stabilityai/stable-diffusion-3.5-large und führen Sie aus huggingface-cli login
Langsamer erster Lauf
Der anfängliche Download beträgt ~16 GB für Large; nachfolgende Läufe verwenden den Cache
KeyError: 'text_encoder_3'
Diffusers aktualisieren: pip install -U diffusers transformers
Schwarze Bildausgabe
Stelle sicher, dass torch_dtype=torch.bfloat16 für Large/Turbo; fp32 kann auf einigen Karten stille Fehler verursachen
Zuletzt aktualisiert
War das hilfreich?