Gemma 2

Ejecuta los modelos Gemma 2 de Google de forma eficiente en GPUs de Clore.ai

circle-info

¡Nueva versión disponible! Google lanzó Gemma 3 en marzo de 2025: el modelo de 27B supera a Llama 3.1 405B y agrega soporte multimodal nativo. Considere actualizar.

Ejecute los modelos Gemma 2 de Google para una inferencia eficiente.

circle-check

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es Gemma 2?

Gemma 2 de Google ofrece:

  • Modelos de 2B a 27B de parámetros

  • Excelente rendimiento por tamaño

  • Fuerte seguimiento de instrucciones

  • Arquitectura eficiente

Variantes de modelo

Modelo
Parámetros
VRAM
Contexto

Gemma-2-2B

2B

3GB

8K

Gemma-2-9B

9B

12GB

8K

Gemma-2-27B

27B

32GB

8K

Despliegue rápido

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Usando Ollama

Instalación

Uso básico

Gemma 2 2B (Ligero)

Para despliegue en borde/móvil:

Gemma 2 27B (Mejor calidad)

Servidor vLLM

API compatible con OpenAI

Streaming

Interfaz Gradio

Procesamiento por lotes

Rendimiento

Modelo
GPU
Tokens/seg

Gemma-2-2B

RTX 3060

~100

Gemma-2-9B

RTX 3090

~60

Gemma-2-9B

RTX 4090

~85

Gemma-2-27B

A100

~45

Gemma-2-27B (4 bits)

RTX 4090

~30

Comparación

Modelo
MMLU
Calidad
Velocidad

Gemma-2-9B

71.3%

Genial

Rápido

Llama-3.1-8B

69.4%

Bueno

Rápido

Mistral-7B

62.5%

Bueno

Rápido

Solución de problemas

triangle-exclamation

para 27B - Use cuantización a 4 bits con BitsAndBytesConfig - Reduzca `max_new_tokens` - Limpie la caché de GPU: `torch.cuda.empty_cache()`

Generación lenta

  • Use vLLM para despliegue en producción

  • Habilitar Flash Attention

  • Pruebe el modelo de 9B para una inferencia más rápida

Problemas de calidad de salida

  • Use la versión afinada con instrucciones (-it sufijo)

  • Ajuste la temperatura (recomendado 0.7-0.9)

  • Agregue un prompt de sistema para contexto

Advertencias del tokenizador

  • Actualice transformers a la versión más reciente

  • Usa padding_side="left" para inferencia por lotes

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Próximos pasos

  • Llama 3.2 - El modelo de Meta

  • Qwen2.5 - el modelo de Alibaba

  • Inferencia vLLM - Servicio en producción

Última actualización

¿Te fue útil?