Llama 4 (Scout y Maverick)

Ejecuta los modelos MoE Meta Llama 4 Scout & Maverick en GPUs de Clore.ai

Llama 4 de Meta, lanzado en abril de 2025, marca un cambio fundamental hacia Mezcla de Expertos (MoE) arquitectura. En lugar de activar todos los parámetros para cada token, Llama 4 enruta cada token a subredes "expertas" especializadas — ofreciendo rendimiento de vanguardia a una fracción del costo de cómputo. Están disponibles dos modelos de pesos abiertos: Scout (ideal para una sola GPU) y Maverick (potencia para múltiples GPU).

Características clave

  • Arquitectura MoE: Solo 17B de parámetros activos por token (de 109B/400B en total)

  • Ventanas de contexto masivas: Scout admite 10M de tokens, Maverick admite 1M de tokens

  • Multimodal de forma nativa: Entiende tanto texto como imágenes desde el primer momento

  • Dos modelos: Scout (16 expertos, amigable para una sola GPU) y Maverick (128 expertos, multi-GPU)

  • Rendimiento competitivo: Scout iguala a Gemma 3 27B; Maverick compite con modelos de clase GPT-4o

  • Pesos abiertos: Licencia de la Comunidad Llama (gratis para la mayoría de usos comerciales)

Variantes de modelo

Modelo
Parámetros totales
Parámetros activos
Expertos
Contexto
VRAM mínima (Q4)
VRAM mínima (FP16)

Scout

109B

17B

16

10M

12GB

80GB

Maverick

400B

17B

128

1M

48GB (multi)

320GB (multi)

Requisitos

Componente
Scout (Q4)
Scout (FP16)
Maverick (Q4)

GPU

1× RTX 4090

1× H100

4× RTX 4090

VRAM

24GB

80GB

4×24GB

RAM

32GB

64GB

128GB

Disco

50GB

120GB

250GB

CUDA

11.8+

12.0+

12.0+

GPU recomendada de Clore.ai: RTX 4090 24GB (~$0.5–2/día) para Scout — mejor relación calidad-precio

Inicio rápido con Ollama

La forma más rápida de poner Llama 4 en funcionamiento:

Ollama como servidor API

Configuración de vLLM (Producción)

Para cargas de producción con mayor rendimiento:

Consultar el servidor vLLM

HuggingFace Transformers

Inicio rápido con Docker

Por qué MoE importa en Clore.ai

Los modelos densos tradicionales (como Llama 3.3 70B) necesitan VRAM masiva porque los 70B parámetros están todos activos. Llama 4 Scout tiene 109B en total pero solo activa 17B por token — lo que significa:

  • La misma calidad que modelos densos de 70B+ a una fracción del coste de VRAM

  • Cabe en una sola RTX 4090 en modo cuantizado

  • Contexto de 10M de tokens — procesa bases de código completas, documentos largos, libros

  • Más barato de alquilar — $0.5–2/día en lugar de $6–12/día para modelos de 70B

Consejos para usuarios de Clore.ai

  • Comienza con Scout Q4: Mejor relación calidad-precio en RTX 4090 — $0.5–2/día, cubre el 95% de los casos de uso

  • Usa --max-model-len con prudencia: No establezcas el contexto más alto de lo que necesitas — reserva VRAM. Empieza en 8192, aumenta según sea necesario

  • Paralelismo tensorial para Maverick: Alquila máquinas 4× RTX 4090 para Maverick; usa --tensor-parallel-size 4

  • Inicio de sesión en HuggingFace requerido: huggingface-cli login — primero necesitas aceptar la licencia de Llama en HF

  • Ollama para pruebas rápidas, vLLM para producción: Ollama es más rápido de configurar; vLLM ofrece mayor rendimiento para servir APIs

  • Monitorea la memoria GPU: watch nvidia-smi — los modelos MoE pueden aumentar la VRAM en secuencias largas

Solución de problemas

Problema
Solución

OutOfMemoryError

Reducir --max-model-len, usa cuantización Q4, o actualiza la GPU

Fallo en la descarga del modelo

Ejecuta huggingface-cli login y acepta la licencia de Llama 4 en hf.co

Generación lenta

Asegúrate de que se esté usando la GPU (nvidia-smi); verifica --gpu-memory-utilization

vLLM falla al iniciar

Reduce la longitud del contexto; asegúrate de tener CUDA 11.8+ instalado

Ollama muestra el modelo incorrecto

Ejecuta ollama list para verificar; ollama rm + ollama pull para volver a descargar

Lecturas adicionales

Última actualización

¿Te fue útil?