Entrenamiento Kohya

Entrena LoRA y DreamBooth para Stable Diffusion con Kohya en Clore.ai

Entrena LoRA, Dreambooth y afinaciones completas para Stable Diffusion usando el entrenador de Kohya.

circle-check

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es Kohya?

Kohya_ss es un conjunto de herramientas de entrenamiento para:

  • LoRA - Adaptadores ligeros (los más populares)

  • Dreambooth - Entrenamiento de sujeto/estilo

  • Afinación completa - Entrenamiento completo del modelo

  • LyCORIS - Variantes avanzadas de LoRA

Requisitos

Tipo de entrenamiento
VRAM mínima
Recomendado

LoRA SD 1.5

6GB

RTX 3060

LoRA SDXL

12GB

RTX 3090

Dreambooth SD 1.5

12GB

RTX 3090

Dreambooth SDXL

24GB

RTX 4090

Despliegue rápido

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Usando la interfaz web

  1. Acceder en http://<proxy>:<port>

  2. Seleccionar tipo de entrenamiento (LoRA, Dreambooth, etc.)

  3. Configurar ajustes

  4. Iniciar entrenamiento

Preparación del conjunto de datos

Estructura de carpetas

Requisitos de imagen

  • Resolución: 512x512 (SD 1.5) o 1024x1024 (SDXL)

  • Formato: PNG o JPG

  • Cantidad: 10-50 imágenes para LoRA

  • Calidad: Claras, bien iluminadas, con ángulos variados

Archivos de subtítulos

Crear .txt archivo con el mismo nombre que la imagen:

miimagen.txt:

Auto-subtitulado

Usar BLIP para subtítulos automáticos:

Entrenamiento LoRA (SD 1.5)

Configuración

En la UI de Kohya:

Ajuste
Valor

Modelo

runwayml/stable-diffusion-v1-5

Rango de la red

32-128

Alpha de la red

16-64

Tasa de aprendizaje

1e-4

Tamaño de lote

1-4

Épocas

10-20

Optimizador

AdamW8bit

Entrenamiento por línea de comandos

Entrenamiento LoRA (SDXL)

Entrenamiento Dreambooth

Entrenamiento de sujeto

Entrenamiento de estilo

Consejos de entrenamiento

Ajustes óptimos

Parámetro
Persona/Personaje
Estilo
Objeto

Rango de la red

64-128

32-64

32

Alpha de la red

32-64

16-32

16

Tasa de aprendizaje

1e-4

5e-5

1e-4

Épocas

15-25

10-15

10-15

Evitando sobreajuste

  • Usar imágenes de regularización

  • Reducir la tasa de aprendizaje

  • Menos épocas

  • Aumentar el alpha de la red

Evitando subajuste

  • Más imágenes de entrenamiento

  • Tasa de aprendizaje más alta

  • Más épocas

  • Reducir el alpha de la red

Monitoreo del entrenamiento

TensorBoard

Métricas clave

  • pérdida - Debe disminuir y luego estabilizarse

  • lr - Programación de la tasa de aprendizaje

  • época - Progreso del entrenamiento

Probar tu LoRA

Con Automatic1111

Copiar LoRA a:

Usar en el prompt:

Con ComfyUI

Cargar el nodo LoRA y conectar al modelo.

Con Diffusers

Entrenamiento avanzado

LyCORIS (LoHa, LoKR)

Inversión textual

Guardado y exportación

Descargar modelo entrenado

Convertir formatos

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Entrenamiento LoRA para FLUX

Entrena adaptadores LoRA para FLUX.1-dev y FLUX.1-schnell — la última generación de modelos difusivos tipo transformer con calidad superior.

Requisitos de VRAM

Modelo
VRAM mínima
GPU recomendada

FLUX.1-schnell

16GB

RTX 4080 / 3090

FLUX.1-dev

24GB

RTX 4090

FLUX.1-dev (bf16)

40GB+

A100 40GB

Nota: FLUX usa la arquitectura DiT (Diffusion Transformer): la dinámica de entrenamiento difiere significativamente de SD 1.5 / SDXL.

Instalación para FLUX

Instalar PyTorch con soporte CUDA 12.4:

Configuración LoRA para FLUX (flux_lora.toml)

Comando de entrenamiento LoRA para FLUX

FLUX vs SDXL: Diferencias clave

Parámetro
SDXL
FLUX.1

Tasa de aprendizaje

1e-3 a 1e-4

1e-4 a 5e-5

Precisión

fp16 o bf16

bf16 REQUERIDO

Módulo de red

networks.lora

networks.lora_flux

Dimensión de la red

32–128

8–64 (más pequeño)

Optimizador

AdamW8bit

Adafactor

VRAM mínima

12GB

16–24GB

Arquitectura

U-Net

DiT (Transformer)

Guía de tasa de aprendizaje para FLUX

Consejo: FLUX es más sensible a la tasa de aprendizaje que SDXL. Comienza en 1e-4 y reduce a 5e-5 si ves problemas de calidad. Para SDXL, 1e-3 es común — evita esto para FLUX.

Probando LoRA de FLUX


Solución de problemas

Error OOM

  • Reducir el tamaño de lote a 1

  • Habilitar gradient checkpointing

  • Usar optimizador de 8bit

  • Reducir la resolución

Resultados deficientes

  • Más/mejores imágenes de entrenamiento

  • Ajustar la tasa de aprendizaje

  • Comprobar que los subtítulos coincidan con las imágenes

  • Probar diferente rango de red

Bloqueos durante el entrenamiento

  • Comprobar la versión de CUDA

  • Actualizar xformers

  • Reducir el tamaño del lote

  • Comprobar espacio en disco

Problemas específicos de FLUX

  • "bf16 no soportado" — Usar GPUs serie A (Ampere+) o RTX 30/40

  • OOM en FLUX.1-dev — Cambiar a FLUX.1-schnell (necesita 16GB) o habilitar cache_text_encoder_outputs

  • Resultados borrosos — Aumentar network_dim a 32–64, reducir la tasa de aprendizaje a 5e-5

  • Pérdida NaN — Desactivar full_bf16, comprobar tu conjunto de datos por imágenes corruptas

Última actualización

¿Te fue útil?