Stable Diffusion 3.5

Genera imágenes de alta fidelidad con renderizado de texto preciso usando Stable Diffusion 3.5 en GPUs de Clore.ai.

Stable Diffusion 3.5 de Stability AI es un Transformador de Difusión Multimodal (MMDiT) que establece un nuevo estándar para la generación de imágenes con pesos abiertos. Está disponible en tres variantes: Grande (8B parámetros), Medio (2.5B parámetros), y Grande Turbo (8B, destilado para inferencia de 4 pasos). La característica destacada es su renderizado de texto preciso: SD 3.5 puede colocar de forma fiable texto legible dentro de las imágenes generadas, una capacidad con la que la mayoría de modelos anteriores tienen dificultades.

En Clore.aiarrow-up-right puedes alquilar la potencia GPU que SD 3.5 necesita por tan solo $0.30/día y generar cientos de imágenes por hora.

Características clave

  • Tres variantes — Grande (8B, máxima calidad), Medio (2.5B, rápido y ligero), Grande Turbo (8B, destilado a 4 pasos).

  • Renderizado de texto preciso — genera texto legible, letreros, etiquetas y tipografía dentro de las imágenes.

  • Arquitectura MMDiT — atención conjunta imagen-texto para una superior adherencia al prompt.

  • Resolución nativa 1024×1024 — salida limpia sin trucos de escalado.

  • Relaciones de aspecto flexibles — maneja salidas no cuadradas (768×1344, 1344×768, etc.) sin pérdida de calidad.

  • Soporte nativo de diffusersStableDiffusion3Pipeline en diffusers >= 0.30.

  • Pesos abiertos — Licencia de la Comunidad de Stability AI; gratuita para la mayoría de usos comerciales.

Requisitos

Componente
Mínimo
Recomendado

VRAM de GPU

12 GB (Medio)

24 GB (Grande / Turbo)

RAM del sistema

16 GB

32 GB

Disco

20 GB

40 GB

Python

3.10+

3.11

CUDA

12.1+

12.4

diffusers

0.30+

última

Recomendación de GPU de Clore.ai: Un RTX 4090 (24 GB, ~$0.5–2/día) ejecuta las tres variantes a plena velocidad. Para el modelo Medium, una RTX 3090 (24 GB, ~$0.3–1/día) o incluso una tarjeta de 16 GB es suficiente y más barata.

Inicio rápido

Ejemplos de uso

SD 3.5 Large — Calidad máxima

SD 3.5 Large Turbo — Generación rápida en 4 pasos

SD 3.5 Medium — Opción ligera

Generación por lotes con diferentes relaciones de aspecto

Consejos para usuarios de Clore.ai

  1. Turbo para iteración, Grande para finales — usa la variante Turbo de 4 pasos para explorar ideas de prompt rápidamente, luego cambia a Grande (28 pasos) para el render final.

  2. guidance_scale=3.5 — SD 3.5 Large funciona mejor con un CFG más bajo que los modelos antiguos de Stable Diffusion. Subir por encima de 5.0 a menudo causa sobresaturación.

  3. Turbo necesita guidance_scale=0 — el modelo destilado ya tiene la guía incorporada; añadir más degrada la salida.

  4. Texto en imágenes — el renderizado de texto de SD 3.5 es fuerte pero no perfecto. Usa comillas alrededor del texto exacto que quieres: 'OPEN 24 HOURS'. Mantenlo corto (máx. 3–5 palabras).

  5. Caché de pesos — establece HF_HOME=/workspace/hf_cache en almacenamiento persistente. Large ocupa ~16 GB en disco.

  6. bf16 para Large, fp16 para Medium — los modelos de 8B se entrenaron en bf16; el Medium de 2.5B funciona bien en fp16.

  7. Hacer lotes de forma eficiente — SD 3.5 Large genera una imagen 1024×1024 en ~3 segundos en una RTX 4090. Ejecuta lotes durante la noche para generación masiva.

  8. Aceptar la licencia de HF — debes aceptar la licencia del modelo en la página del modelo en HuggingFace antes de descargar. Inicia sesión con huggingface-cli login.

Solución de problemas

Problema
Solucionar

OutOfMemoryError con Large

Usa pipe.enable_model_cpu_offload(); o cambia a la variante Medium

Texto garabateado en la imagen

Mantén el texto corto (3–5 palabras); ponlo entre comillas en el prompt; aumenta num_inference_steps a 35

Colores sobresaturados

Reduce guidance_scale — prueba 2.5–3.5 para Large; usa 0.0 para Turbo

error 403 al descargar el modelo

Acepta la licencia en https://huggingface.co/stabilityai/stable-diffusion-3.5-large y ejecuta huggingface-cli login

Primera ejecución lenta

La descarga inicial es ~16 GB para Large; las ejecuciones posteriores usan la caché

KeyError: 'text_encoder_3'

Actualiza diffusers: pip install -U diffusers transformers

Salida de imagen en negro

Asegúrate de torch_dtype=torch.bfloat16 para Large/Turbo; fp32 puede causar fallos silenciosos en algunas tarjetas

Última actualización

¿Te fue útil?