Llama 3.3 70B

Führen Sie Metas Llama 3.3 70B-Modell auf Clore.ai GPUs aus

circle-info

Neuere Version verfügbar! Meta veröffentlichte Llama 4 im April 2025 mit MoE-Architektur — Scout (17B aktiv, passt auf RTX 4090) liefert ähnliche Qualität bei einem Bruchteil des VRAM-Bedarfs. Ein Upgrade in Betracht ziehen.

Metas neuestes und effizientestes 70B-Modell auf CLORE.AI-GPUs.

circle-check

Warum Llama 3.3?

  • Bestes 70B-Modell - Entspricht der Leistung von Llama 3.1 405B bei einem Bruchteil der Kosten

  • Mehrsprachig - Unterstützt 8 Sprachen nativ

  • 128K Kontext - Verarbeitung langer Dokumente

  • Offene Gewichte - Kostenlos für kommerzielle Nutzung

Modellübersicht

Spezifikation
Wert

Parameter

70B

Kontextlänge

128K Tokens

Trainingsdaten

15T+ Tokens

Sprachen

EN, DE, FR, IT, PT, HI, ES, TH

Lizenz

Llama 3.3 Community-Lizenz

Leistung im Vergleich zu anderen Modellen

Benchmark
Llama 3.3 70B
Llama 3.1 405B
GPT-4o

MMLU

86.0

87.3

88.7

HumanEval

88.4

89.0

90.2

MATH

77.0

73.8

76.6

Mehrsprachig

91.1

91.6

-

GPU-Anforderungen

Einrichtung
VRAM
Leistung
Kosten

Q4 quantisiert

40GB

Gut

A100 40GB (~$0.17/Stunde)

Q8 quantisiert

70GB

Besser

A100 80GB (~$0.25/Stunde)

FP16 voll

140GB

Am besten

2x A100 80GB (~$0.50/Stunde)

Empfohlen: A100 40GB mit Q4-Quantisierung für das beste Preis-/Leistungsverhältnis.

Schnelle Bereitstellung auf CLORE.AI

Verwendung von Ollama (am einfachsten)

Docker-Image:

Ports:

Nach der Bereitstellung:

Verwendung von vLLM (Produktion)

Docker-Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Installationsmethoden

Methode 1: Ollama (Empfohlen zum Testen)

API-Nutzung:

Methode 2: vLLM (Produktion)

API-Verwendung (OpenAI-kompatibel):

Methode 3: Transformers + bitsandbytes

Methode 4: llama.cpp (CPU+GPU-Hybrid)

Benchmarks

Durchsatz (Tokens/Sekunde)

GPU
Q4
Q8
FP16

A100 40GB

25-30

-

-

A100 80GB

35-40

25-30

-

2x A100 80GB

50-60

40-45

30-35

H100 80GB

60-70

45-50

35-40

Zeit bis zum ersten Token (TTFT)

GPU
Q4
FP16

A100 40GB

0.8-1.2s

-

A100 80GB

0.6-0.9s

-

2x A100 80GB

0.4-0.6s

0.8-1.0s

Kontextlänge vs. VRAM

Kontext
Q4 VRAM
Q8 VRAM

4K

38GB

72GB

8K

40GB

75GB

16K

44GB

80GB

32K

52GB

90GB

64K

68GB

110GB

128K

100GB

150GB

Anwendungsfälle

Codegenerierung

Dokumentenanalyse (langer Kontext)

Multilinguale Aufgaben

Schlussfolgerung & Analyse

Optimierungstipps

Speicheroptimierung

Geschwindigkeitsoptimierung

Batch-Verarbeitung

Vergleich mit anderen Modellen

Funktion
Llama 3.3 70B
Llama 3.1 70B
Qwen 2.5 72B
Mixtral 8x22B

MMLU

86.0

83.6

85.3

77.8

Programmierung

88.4

80.5

85.4

75.5

Mathematik

77.0

68.0

80.0

60.0

Kontext

128K

128K

128K

64K

Sprachen

8

8

29

8

Lizenz

Öffnen

Öffnen

Öffnen

Öffnen

Fazit: Llama 3.3 70B bietet die beste Gesamtleistung in seiner Klasse, insbesondere für Programmier- und Schlussfolgerungsaufgaben.

Fehlerbehebung

Kein Speicher mehr

Langsame erste Antwort

  • Die erste Anfrage lädt das Modell auf die GPU - Warte 30–60 Sekunden

  • Verwenden Sie --enable-prefix-caching für schnellere nachfolgende Anfragen

  • Mit einer Dummy-Anfrage vorwärmen

Hugging Face-Zugriff

Kostenabschätzung

Einrichtung
GPU
$/Stunde
Tokens/$

Budget

A100 40GB (Q4)

~$0.17

~530K

Ausgeglichen

A100 80GB (Q4)

~$0.25

~500K

Leistung

2x A100 80GB

~$0.50

~360K

Maximal

H100 80GB

~$0.50

~500K

Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?