Gemma 3

Ejecuta los modelos multimodales Google Gemma 3 en Clore.ai — supera a Llama-405B siendo 15 veces más pequeño

Gemma 3, lanzado en marzo de 2025 por Google DeepMind, está construido sobre la misma tecnología que Gemini 2.0. Su logro destacado: el modelo de 27B supera a Llama 3.1 405B en los benchmarks de LMArena — un modelo 15 veces su tamaño. Es nativamente multimodal (texto + imágenes + video), admite contexto de 128K y se ejecuta en una sola RTX 4090 con cuantización.

Características clave

  • Rinde muy por encima de su peso: 27B supera a modelos de clase 405B en los principales benchmarks

  • Nativamente multimodal: Comprensión de texto, imagen y video integrada

  • Ventana de contexto de 128K: Procesa documentos largos, bases de código, conversaciones

  • Cuatro tamaños: 1B, 4B, 12B, 27B — algo para cada presupuesto de GPU

  • Versiones QAT: Variantes de Entrenamiento Consciente de Cuantización permiten ejecutar 27B en GPUs de consumo

  • Amplio soporte de frameworks: Ollama, vLLM, Transformers, Keras, JAX, PyTorch

Variantes de modelo

Modelo
Parámetros
VRAM (Q4)
VRAM (FP16)
Mejor para

Gemma 3 1B

1B

1.5GB

3GB

Edge, móvil, pruebas

Gemma 3 4B

4B

4GB

9GB

GPUs para presupuesto, tareas rápidas

Gemma 3 12B

12B

10GB

25GB

Equilibrio calidad/velocidad

Gemma 3 27B

27B

18GB

54GB

Mejor calidad, producción

Gemma 3 27B QAT

27B

14GB

Optimizado para GPUs de consumo

Requisitos

Componente
Gemma 3 4B
Gemma 3 27B (Q4)
Gemma 3 27B (FP16)

GPU

RTX 3060

RTX 4090

2× RTX 4090 / A100

VRAM

6GB

24GB

48GB+

RAM

16GB

32GB

64GB

Disco

10GB

25GB

55GB

CUDA

11.8+

11.8+

12.0+

GPU recomendada de Clore.ai: RTX 4090 24GB (~$0.5–2/día) para 27B cuantizado — el punto óptimo

Inicio rápido con Ollama

Servidor API de Ollama

Visión con Ollama

Configuración de vLLM (Producción)

HuggingFace Transformers

Generación de texto

Visión (Comprensión de Imágenes)

Inicio rápido con Docker

Aspectos destacados del benchmark

Benchmark
Gemma 3 27B
Llama 3.1 70B
Llama 3.1 405B

LMArena ELO

1354

1298

1337

MMLU

75.6

79.3

85.2

HumanEval

72.0

72.6

80.5

VRAM (Q4)

18GB

40GB

200GB+

Costo en Clore

$0.5–2/día

$3–6/día

$12–24/día

El 27B ofrece calidad conversacional de clase 405B a 1/10 del coste de VRAM.

Consejos para usuarios de Clore.ai

  • 27B QAT es el punto óptimo: El Entrenamiento Consciente de Cuantización implica menos pérdida de calidad que la cuantización post-entrenamiento — ejecútalo en una sola RTX 4090

  • La visión es gratis: No se necesita configuración extra — Gemma 3 entiende imágenes de forma nativa. Ideal para análisis de documentos, capturas de pantalla y lectura de gráficos

  • Comienza con contexto corto: Usa --max-model-len 8192 inicialmente; aumenta solo cuando sea necesario para ahorrar VRAM

  • 4B para ejecuciones económicas: Si usas RTX 3060/3070 ($0.15–0.3/día), el modelo 4B todavía supera a los modelos 27B de la generación anterior

  • No se requiere autenticación de Google: A diferencia de algunos modelos, Gemma 3 se descarga sin restricciones (solo acepta la licencia en HuggingFace)

Solución de problemas

Problema
Solución

OutOfMemoryError en 27B

Usa la versión QAT o reduce --max-model-len a 4096

La visión no funciona en Ollama

Actualiza Ollama a la última versión: curl -fsSL https://ollama.com/install.sh | sh

Velocidad de generación lenta

Comprueba que estés usando bfloat16, no float32. Usa --dtype bfloat16

El modelo genera basura

Asegúrate de estar usando la -it variante (tuned-instruct), no el modelo base

Error 403 al descargar

Acepta la licencia de Gemma en https://huggingface.co/google/gemma-3-27b-it

Lecturas adicionales

Última actualización

¿Te fue útil?