Gemma 2

Exécutez efficacement les modèles Gemma 2 de Google sur les GPU Clore.ai

circle-info

Nouvelle version disponible ! Google a publié Gemma 3 en mars 2025 — le modèle 27B bat Llama 3.1 405B et ajoute la prise en charge multimodale native. Envisagez une mise à jour.

Exécutez les modèles Gemma 2 de Google pour une inférence efficace.

circle-check

Location sur CLORE.AI

  1. Filtrer par type de GPU, VRAM et prix

  2. Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)

  3. Configurez votre commande :

    • Sélectionnez l'image Docker

    • Définissez les ports (TCP pour SSH, HTTP pour les interfaces web)

    • Ajoutez des variables d'environnement si nécessaire

    • Entrez la commande de démarrage

  4. Sélectionnez le paiement : CLORE, BTC, ou USDT/USDC

  5. Créez la commande et attendez le déploiement

Accédez à votre serveur

  • Trouvez les détails de connexion dans Mes commandes

  • Interfaces Web : utilisez l'URL du port HTTP

  • SSH : ssh -p <port> root@<adresse-proxy>

Qu'est-ce que Gemma 2 ?

Gemma 2 de Google offre :

  • Modèles de 2B à 27B de paramètres

  • Excellente performance par taille

  • Bonne capacité à suivre les instructions

  • Architecture efficace

Variantes de modèle

Modèle
Paramètres
VRAM
Contexte

Gemma-2-2B

2B

3 Go

8K

Gemma-2-9B

9B

12Go

8K

Gemma-2-27B

27B

32Go

8K

Déploiement rapide

Image Docker :

Ports :

Commande :

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à la Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Utilisation d'Ollama

Installation

Utilisation de base

Gemma 2 2B (Léger)

Pour le déploiement en périphérie/mobile :

Gemma 2 27B (Meilleure qualité)

Serveur vLLM

API compatible OpenAI

Streaming

Interface Gradio

Traitement par lots

Performances

Modèle
GPU
Tokens/sec

Gemma-2-2B

RTX 3060

~100

Gemma-2-9B

RTX 3090

~60

Gemma-2-9B

RTX 4090

~85

Gemma-2-27B

A100

~45

Gemma-2-27B (4 bits)

RTX 4090

~30

Comparaison

Modèle
MMLU
Qualité
Vitesse

Gemma-2-9B

71.3%

Excellent

Rapide

Llama-3.1-8B

69.4%

Bon

Rapide

Mistral-7B

62.5%

Bon

Rapide

Dépannage

triangle-exclamation

pour 27B - Utilisez la quantification 4 bits avec BitsAndBytesConfig - Réduisez `max_new_tokens` - Videz le cache GPU : `torch.cuda.empty_cache()`

Génération lente

  • Utilisez vLLM pour le déploiement en production

  • Activez Flash Attention

  • Essayez le modèle 9B pour une inférence plus rapide

Problèmes de qualité de sortie

  • Utilisez la version ajustée aux instructions (-it suffixe)

  • Ajustez la température (0,7-0,9 recommandé)

  • Ajoutez une invite système pour le contexte

Avertissements du tokenizer

  • Mettez à jour transformers vers la dernière version

  • Utilisez padding_side="left" pour l'inférence par lot

Estimation des coûts

Tarifs typiques du marché CLORE.AI (à partir de 2024) :

GPU
Tarif horaire
Tarif journalier
Session de 4 heures

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Les prix varient selon le fournisseur et la demande. Vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Économisez de l'argent :

  • Utilisez Spot market pour les charges de travail flexibles (souvent 30-50 % moins cher)

  • Payer avec CLORE jetons

  • Comparer les prix entre différents fournisseurs

Prochaines étapes

  • Llama 3.2 - modèle de Meta

  • Qwen2.5 - le modèle d'Alibaba

  • vLLM Inference - Mise en production

Mis à jour

Ce contenu vous a-t-il été utile ?