Compatibilidad de modelos
Matriz de compatibilidad de modelos de IA y GPUs para Clore.ai
Referencia rápida
Modelos de lenguaje (LLM)
Modelo
Parámetros
VRAM mínima
Recomendado
Cuantización
Modelos de generación de imágenes
Modelo
VRAM mínima
Recomendado
Notas
Modelos de generación de video
Modelo
VRAM mínima
Recomendado
Salida
Modelos de audio
Modelo
VRAM mínima
Recomendado
Tarea
Modelos de visión y visión-lenguaje
Modelo
VRAM mínima
Recomendado
Tarea
Herramientas de ajuste fino y entrenamiento
Herramienta / Método
VRAM mínima
GPU recomendada
Tarea
Tablas detalladas de compatibilidad
LLM por GPU
GPU
Máx. modelo (Q4)
Máx. modelo (Q8)
Máx. modelo (FP16)
Generación de imágenes por GPU
GPU
SD 1.5
SDXL
FLUX schnell
FLUX dev
Generación de video por GPU
GPU
SVD
AnimateDiff
Wan2.1
Hunyuan
Guía de cuantización
¿Qué es la cuantización?
Formato
Bits
Reducción de VRAM
Pérdida de calidad
Calculadora de VRAM
Tamaño del modelo
FP16
Q8
Q4
Cuantización recomendada por caso de uso
Caso de uso
Recomendado
Por qué
Longitud de contexto vs VRAM
Cómo el contexto afecta la VRAM
Modelo
Contexto por defecto
Contexto máximo
VRAM por 1K tokens
Contexto por GPU (Llama 3 8B Q4)
GPU
Contexto cómodo
Contexto máximo
Configuraciones multi-GPU
Paralelismo tensorial
Configuración
VRAM total
Máx. modelo (FP16)
vLLM Multi-GPU
Guías específicas de modelos
Familia Llama 3.1
Variante
Parámetros
GPU mínima
Configuración recomendada
Familia Mistral/Mixtral
Variante
Parámetros
GPU mínima
Configuración recomendada
Familia Qwen 2.5
Variante
Parámetros
GPU mínima
Configuración recomendada
Modelos DeepSeek
Variante
Parámetros
GPU mínima
Configuración recomendada
Solución de problemas
"CUDA out of memory"
"Modelo demasiado grande"
"Generación lenta"
Próximos pasos
Última actualización
¿Te fue útil?