Llama 4 (Scout & Maverick)

Führen Sie Meta Llama 4 Scout & Maverick MoE-Modelle auf Clore.ai GPUs aus

Metas Llama 4, veröffentlicht im April 2025, markiert einen grundlegenden Wechsel zu Mixture of Experts (MoE) Architektur. Anstatt alle Parameter für jedes Token zu aktivieren, leitet Llama 4 jedes Token zu spezialisierten "Expert"-Teilnetzwerken — und bietet Spitzenleistung bei einem Bruchteil der Rechenkosten. Zwei Modelle mit offenem Gewicht sind verfügbar: Scout (ideal für eine einzelne GPU) und Maverick (Multi-GPU-Kraftpaket).

Hauptmerkmale

  • MoE-Architektur: Nur 17B Parameter pro Token aktiv (von insgesamt 109B/400B)

  • Enorme Kontextfenster: Scout unterstützt 10M Token, Maverick unterstützt 1M Token

  • Nativ multimodal: Versteht von Haus aus sowohl Text als auch Bilder

  • Zwei Modelle: Scout (16 Experten, single-GPU-freundlich) und Maverick (128 Experten, Multi-GPU)

  • Wettbewerbsfähige Leistung: Scout entspricht Gemma 3 27B; Maverick konkurriert mit Modellen der GPT-4o-Klasse

  • Offene Gewichte: Llama Community License (für die meisten kommerziellen Nutzungen kostenlos)

Modellvarianten

Modell
Gesamtparameter
Aktive Parameter
Experten
Kontext
Min. VRAM (Q4)
Min. VRAM (FP16)

Scout

109B

17B

16

10M

12GB

80GB

Maverick

400B

17B

128

1M

48GB (multi)

320GB (multi)

Anforderungen

Komponente
Scout (Q4)
Scout (FP16)
Maverick (Q4)

GPU

1× RTX 4090

1× H100

4× RTX 4090

VRAM

24GB

80GB

4×24GB

RAM

32GB

64GB

128GB

Festplatte

50GB

120GB

250GB

CUDA

11.8+

12.0+

12.0+

Empfohlene Clore.ai-GPU: RTX 4090 24GB (~0,5–2 $/Tag) für Scout — bestes Preis-Leistungs-Verhältnis

Schnellstart mit Ollama

Der schnellste Weg, Llama 4 zum Laufen zu bringen:

Ollama als API-Server

vLLM-Einrichtung (Produktion)

Für Produktions-Workloads mit höherem Durchsatz:

vLLM-Server abfragen

HuggingFace Transformers

Docker Quick Start

Warum MoE auf Clore.ai wichtig ist

Traditionelle dichte Modelle (wie Llama 3.3 70B) benötigen massiven VRAM, weil alle 70B Parameter aktiv sind. Llama 4 Scout hat 109B insgesamt, aktiviert aber nur 17B pro Token — das bedeutet:

  • Gleiche Qualität wie 70B+ dichte Modelle bei einem Bruchteil der VRAM-Kosten

  • Passt auf eine einzelne RTX 4090 im quantisierten Modus

  • 10M Token Kontext — verarbeitet komplette Codebasen, lange Dokumente, Bücher

  • Günstiger zu mieten — 0,5–2 $/Tag statt 6–12 $/Tag für 70B-Modelle

Tipps für Clore.ai-Nutzer

  • Beginne mit Scout Q4: Bestes Preis-Leistungs-Verhältnis auf der RTX 4090 — 0,5–2 $/Tag, deckt 95 % der Anwendungsfälle ab

  • Verwenden Sie --max-model-len weise: Setze den Kontext nicht höher als nötig — er reserviert VRAM. Beginne bei 8192 und erhöhe bei Bedarf

  • Tensor-Parallel für Maverick: Miete 4× RTX 4090-Maschinen für Maverick; verwende --tensor-parallel-size 4

  • HuggingFace-Login erforderlich: huggingface-cli login — du musst die Llama-Lizenz auf HF zuerst akzeptieren

  • Ollama für Schnelltests, vLLM für Produktion: Ollama ist schneller einzurichten; vLLM bietet höheren Durchsatz für API-Serving

  • GPU-Speicher überwachen: watch nvidia-smi — MoE-Modelle können bei langen Sequenzen VRAM-Spitzen verursachen

Fehlerbehebung

Problem
Lösung

OutOfMemoryError

Reduzieren --max-model-len, verwende Q4-Quantisierung oder rüste die GPU auf

Modelldownload schlägt fehl

Ausführen huggingface-cli login und akzeptiere die Llama-4-Lizenz auf hf.co

Langsame Generierung

Stelle sicher, dass die GPU verwendet wird (nvidia-smi); prüfe --gpu-memory-utilization

vLLM stürzt beim Start ab

Reduziere die Kontextlänge; stelle sicher, dass CUDA 11.8+ installiert ist

Ollama zeigt falsches Modell an

Ausführen ollama list um zu überprüfen; ollama rm + ollama pull um erneut herunterzuladen

Weiterführende Lektüre

Zuletzt aktualisiert

War das hilfreich?