Llama 3.3 70B

Exécutez le modèle Meta Llama 3.3 70B sur les GPU Clore.ai

circle-info

Nouvelle version disponible ! Meta a publié Llama 4 en avril 2025 avec une architecture MoE — Scout (17B active, tient sur RTX 4090) offre une qualité similaire avec une fraction de la VRAM. Envisagez une mise à niveau.

Le dernier et plus efficace modèle 70B de Meta sur les GPU CLORE.AI.

circle-check

Pourquoi Llama 3.3 ?

  • Meilleur modèle 70B - Équivaut aux performances de Llama 3.1 405B pour une fraction du coût

  • Multilingue - Prend en charge 8 langues nativement

  • Contexte 128K - Traitement de longs documents

  • Poids ouverts - Gratuit pour un usage commercial

Aperçu du modèle

Spécification
Valeur

Paramètres

70B

Longueur du contexte

128K tokens

Données d'entraînement

15T+ tokens

Langues

EN, DE, FR, IT, PT, HI, ES, TH

Licence

Licence communautaire Llama 3.3

Performance vs autres modèles

Benchmark
Llama 3.3 70B
Llama 3.1 405B
GPT-4o

MMLU

86.0

87.3

88.7

HumanEval

88.4

89.0

90.2

MATH

77.0

73.8

76.6

Multilingue

91.1

91.6

-

Exigences GPU

Configuration
VRAM
Performances
Coût

Quantifié Q4

40Go

Bon

A100 40GB (~0,17 $/h)

Quantifié Q8

70Go

Meilleur

A100 80GB (~0,25 $/h)

FP16 complet

140 Go

Meilleur

2x A100 80GB (~0,50 $/h)

Recommandé : A100 40GB avec quantification Q4 pour le meilleur rapport prix/performance.

Déploiement rapide sur CLORE.AI

Utilisation d'Ollama (le plus simple)

Image Docker :

Ports :

Après le déploiement :

Utilisation de vLLM (Production)

Image Docker :

Ports :

Commande :

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à la Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Méthodes d'installation

Méthode 1 : Ollama (Recommandé pour les tests)

Utilisation de l'API :

Méthode 2 : vLLM (Production)

Utilisation de l'API (compatible OpenAI) :

Méthode 3 : Transformers + bitsandbytes

Méthode 4 : llama.cpp (hybride CPU+GPU)

Benchmarks

Débit (tokens/seconde)

GPU
Q4
Q8
FP16

A100 40GB

25-30

-

-

A100 80GB

35-40

25-30

-

2x A100 80Go

50-60

40-45

30-35

H100 80GB

60-70

45-50

35-40

Temps jusqu'au premier token (TTFT)

GPU
Q4
FP16

A100 40GB

0,8-1,2s

-

A100 80GB

0,6-0,9s

-

2x A100 80Go

0,4-0,6s

0,8-1,0s

Longueur du contexte vs VRAM

Contexte
VRAM Q4
VRAM Q8

4K

38GB

72Go

8K

40Go

75GB

16K

44GB

80GB

32K

52GB

90GB

64K

68 Go

110GB

128K

100GB

150Go

Cas d'utilisation

Génération de code

Analyse de documents (long contexte)

Tâches multilingues

Raisonnement et analyse

Conseils d'optimisation

Optimisation de la mémoire

Optimisation de la vitesse

Traitement par lots

Comparaison avec d'autres modèles

Fonction
Llama 3.3 70B
Llama 3.1 70B
Qwen 2.5 72B
Mixtral 8x22B

MMLU

86.0

83.6

85.3

77.8

Programmation

88.4

80.5

85.4

75.5

Mathématiques

77.0

68.0

80.0

60.0

Contexte

128K

128K

128K

64K

Langues

8

8

29

8

Licence

Ouvrir

Ouvrir

Ouvrir

Ouvrir

Verdict : Llama 3.3 70B offre les meilleures performances globales de sa catégorie, en particulier pour les tâches de programmation et de raisonnement.

Dépannage

Mémoire insuffisante

Première réponse lente

  • La première requête charge le modèle sur le GPU - attendre 30-60 secondes

  • Utilisez --enable-prefix-caching pour des requêtes ultérieures plus rapides

  • Pré-chauffer avec une requête factice

Accès Hugging Face

Estimation des coûts

Configuration
GPU
$/heure
tokens/$

Économique

A100 40GB (Q4)

~$0.17

~530K

Équilibré

A100 80GB (Q4)

~$0.25

~500K

Performances

2x A100 80Go

~$0.50

~360K

Maximum

H100 80GB

~$0.50

~500K

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?