Gemma 2

Führen Sie Googles Gemma 2-Modelle effizient auf Clore.ai GPUs aus

circle-info

Neuere Version verfügbar! Google hat veröffentlicht Gemma 3 im März 2025 — das 27B-Modell übertrifft Llama 3.1 405B und fügt native Multimodal-Unterstützung hinzu. Ziehen Sie ein Upgrade in Betracht.

Führen Sie Googles Gemma 2-Modelle für effiziente Inferenz aus.

circle-check

Mieten auf CLORE.AI

  1. Nach GPU-Typ, VRAM und Preis filtern

  2. Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)

  3. Konfigurieren Sie Ihre Bestellung:

    • Docker-Image auswählen

    • Ports festlegen (TCP für SSH, HTTP für Web-UIs)

    • Umgebungsvariablen bei Bedarf hinzufügen

    • Startbefehl eingeben

  4. Zahlung auswählen: CLORE, BTC, oder USDT/USDC

  5. Bestellung erstellen und auf Bereitstellung warten

Zugriff auf Ihren Server

  • Verbindungsdetails finden Sie in Meine Bestellungen

  • Webschnittstellen: Verwenden Sie die HTTP-Port-URL

  • SSH: ssh -p <port> root@<proxy-address>

Was ist Gemma 2?

Gemma 2 von Google bietet:

  • Modelle von 2B bis 27B Parametern

  • Ausgezeichnete Leistung pro Größe

  • Starke Befolgung von Anweisungen

  • Effiziente Architektur

Modellvarianten

Modell
Parameter
VRAM
Kontext

Gemma-2-2B

2B

3GB

8K

Gemma-2-9B

9B

12GB

8K

Gemma-2-27B

27B

32GB

8K

Schnelle Bereitstellung

Docker-Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Verwendung von Ollama

Installation

Grundlegende Verwendung

Gemma 2 2B (Leichtgewichtig)

Für Edge-/Mobile-Bereitstellung:

Gemma 2 27B (Beste Qualität)

vLLM-Server

OpenAI‑kompatible API

Streaming

Gradio-Oberfläche

Batch-Verarbeitung

Leistung

Modell
GPU
Tokens/sec

Gemma-2-2B

RTX 3060

~100

Gemma-2-9B

RTX 3090

~60

Gemma-2-9B

RTX 4090

~85

Gemma-2-27B

A100

~45

Gemma-2-27B (4-Bit)

RTX 4090

~30

Vergleich

Modell
MMLU
Qualität
Geschwindigkeit

Gemma-2-9B

71.3%

Großartig

Schnell

Llama-3.1-8B

69.4%

Gut

Schnell

Mistral-7B

62.5%

Gut

Schnell

Fehlerbehebung

triangle-exclamation

für 27B - Verwenden Sie 4-Bit-Quantisierung mit BitsAndBytesConfig - Reduzieren Sie `max_new_tokens` - GPU-Cache leeren: `torch.cuda.empty_cache()`

Langsame Generierung

  • Verwenden Sie vLLM für Produktionsbereitstellung

  • Aktivieren Sie Flash Attention

  • Probieren Sie das 9B-Modell für schnellere Inferenz

Probleme mit der Ausgabequalität

  • Verwenden Sie die instruktionstuning-Version (-it Suffix)

  • Temperatur anpassen (0,7–0,9 empfohlen)

  • Fügen Sie einen Systemprompt für Kontext hinzu

Tokenizer-Warnungen

  • Aktualisieren Sie transformers auf die neueste Version

  • Verwenden Sie padding_side="left" für Batch-Inferenz

Kostenabschätzung

Typische CLORE.AI-Marktplatztarife (Stand 2024):

GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)

  • Bezahlen mit CLORE Token

  • Preise bei verschiedenen Anbietern vergleichen

Nächste Schritte

  • Llama 3.2 - Metas Modell

  • Qwen2.5 - Alibabas Modell

  • vLLM-Inferenz - Produktionseinsatz

Zuletzt aktualisiert

War das hilfreich?