Stable Diffusion 3.5
Генерируйте изображения высокого качества с точным отображением текста с помощью Stable Diffusion 3.5 на GPU Clore.ai.
Stable Diffusion 3.5 от Stability AI — это мультимодальный диффузионный трансформер (MMDiT), который устанавливает новый стандарт для генерации изображений с открытыми весами. Он доступен в трех вариантах: Large (8B параметров), Средне (2.5B параметров), и Large Turbo (8B, дистиллированный для вывода в 4 шага). Главная особенность — точное отображение текста: SD 3.5 надежно помещает читаемый текст в сгенерированные изображения, с чем многим предыдущим моделям было сложно справиться.
На Clore.ai вы можете арендовать GPU для SD 3.5 всего за $0.30/день и генерировать сотни изображений в час.
Ключевые особенности
Три варианта — Large (8B, наивысшее качество), Medium (2.5B, быстро и легковесно), Large Turbo (8B, дистилляция для 4 шагов).
Точное отображение текста — генерирует читаемый текст, вывески, надписи и типографику внутри изображений.
Архитектура MMDiT — совместное внимание к изображению и тексту для лучшего соответствия промпту.
Нативное разрешение 1024×1024 — чистый вывод без хитростей с апскейлом.
Гибкие соотношения сторон — обрабатывает не-квадратные выходы (768×1344, 1344×768 и т.д.) без потери качества.
Нативная поддержка diffusers —
StableDiffusion3Pipelineвdiffusers >= 0.30.Открытые веса — Лицензия сообщества Stability AI; бесплатно для большинства коммерческих применений.
Требования
VRAM GPU
12 GB (Medium)
24 GB (Large / Turbo)
ОЗУ системы
16 ГБ
32 ГБ
Диск
20 ГБ
40 ГБ
Python
3.10+
3.11
CUDA
12.1+
12.4
поддержкой diffusers
0.30+
latest
Рекомендация Clore.ai по GPU: Один RTX 4090 (24 GB, ~$0.5–2/день) обеспечивает запуск всех трех вариантов на полной скорости. Для модели Medium RTX 3090 (24 GB, ~$0.3–1/день) или даже карта на 16 GB достаточна и дешевле.
Быстрый старт
Примеры использования
SD 3.5 Large — Максимальное качество
SD 3.5 Large Turbo — Быстрая генерация в 4 шага
SD 3.5 Medium — Легковесный вариант
Пакетная генерация с разными соотношениями сторон
Советы для пользователей Clore.ai
Turbo для итераций, Large для финалов — используйте 4-шаговый Turbo для быстрого исследования идей промптов, затем переключайтесь на Large (28 шагов) для финального рендера.
guidance_scale=3.5 — SD 3.5 Large лучше работает при более низком CFG, чем старые модели Stable Diffusion. Значения выше 5.0 часто приводят к перенасыщению.
Turbo требует guidance_scale=0 — дистиллированная модель уже содержит руководство внутри; добавление большего ухудшает качество.
Текст в изображениях — отображение текста в SD 3.5 сильное, но не идеальное. Используйте кавычки вокруг точного текста, который хотите получить:
'OPEN 24 HOURS'. Держите текст коротким (макс. 3–5 слов).Кеширование весов — установите
HF_HOME=/workspace/hf_cacheна постоянном хранилище. Large занимает ~16 GB на диске.bf16 для Large, fp16 для Medium — модели 8B обучались в bf16; 2.5B Medium хорошо работает в fp16.
Эффективная пакетная обработка — SD 3.5 Large генерирует одно изображение 1024×1024 примерно за 3 секунды на RTX 4090. Пакетируйте на ночь для массовой генерации.
Принять лицензию HF — вы должны принять лицензию модели на странице HuggingFace перед загрузкой. Выполните вход с
huggingface-cli login.
Устранение неполадок
OutOfMemoryError с Large
Используйте pipe.enable_model_cpu_offload(); или переключитесь на вариант Medium
Искаженный текст на изображении
Держите текст коротким (3–5 слов); помещайте его в кавычки в промпте; увеличьте num_inference_steps до 35
Перенасыщенные цвета
Понизьте guidance_scale — попробуйте 2.5–3.5 для Large; используйте 0.0 для Turbo
Ошибка 403 при скачивании модели
Примите лицензию на https://huggingface.co/stabilityai/stable-diffusion-3.5-large и выполните huggingface-cli login
Медленный первый запуск
Первичная загрузка для Large занимает ~16 GB; последующие запуски используют кеш
KeyError: 'text_encoder_3'
Обновите diffusers: pip install -U diffusers transformers
Черный вывод изображения
Убедитесь, что torch_dtype=torch.bfloat16 для Large/Turbo; fp32 может вызывать скрытые ошибки на некоторых видеокартах
Последнее обновление
Это было полезно?