Llama 3.2 Vision

Exécutez Llama 3.2 Vision de Meta pour la compréhension d'images sur Clore.ai

Exécutez les modèles multimodaux Llama 3.2 Vision de Meta pour la compréhension d'images sur les GPU CLORE.AI.

circle-check

Pourquoi Llama 3.2 Vision ?

  • Multimodal - Comprend à la fois le texte et les images

  • Tailles multiples - Versions de 11B et 90B de paramètres

  • Polyvalent - OCR, questions/réponses visuelles, légendes d'images, analyse de documents

  • Poids ouverts - Entièrement open source de Meta

  • Écosystème Llama - Compatible avec Ollama, vLLM, transformers

Variantes de modèle

Modèle
Paramètres
VRAM (FP16)
Contexte
Idéal pour

Llama-3.2-11B-Vision

11B

24 Go

128K

Usage général, GPU unique

Llama-3.2-90B-Vision

90B

180 Go

128K

Qualité maximale

Llama-3.2-11B-Vision-Instruct

11B

24 Go

128K

Chat/assistant

Llama-3.2-90B-Vision-Instruct

90B

180 Go

128K

Production

Déploiement rapide sur CLORE.AI

Image Docker :

Ports :

Commande :

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à la Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Exigences matérielles

Modèle
GPU minimum
Recommandé
Optimal

Vision 11B

RTX 4090 24GB

A100 40GB

A100 80GB

Vision 90B

4x A100 40Go

4x A100 80GB

8x H100

Installation

Utilisation d'Ollama (le plus simple)

Utilisation de vLLM

Utilisation de Transformers

Utilisation de base

Compréhension d'image

Avec Ollama

Avec l'API vLLM

Cas d'utilisation

OCR / Extraction de texte

Analyse de documents

Questions-réponses visuelles

Génération de légendes d'images

Code à partir de captures d'écran

Images multiples

Traitement par lots

Interface Gradio

Performances

Tâche
Modèle
GPU
Temps

Description d'une seule image

11B

RTX 4090

~3s

Description d'une seule image

11B

A100 40GB

~2s

OCR (1 page)

11B

RTX 4090

~5s

Analyse de document

11B

A100 40GB

~8s

Traitement par lot (10 images)

11B

A100 40GB

~25s

Quantification

4-bit avec bitsandbytes

GGUF avec Ollama

Estimation des coûts

Tarifs typiques du marketplace CLORE.AI :

GPU
Tarif horaire
Idéal pour

RTX 4090 24GB

~$0.10

Modèle 11B

A100 40GB

~$0.17

11B avec contexte long

A100 80GB

~$0.25

11B optimal

4x A100 80GB

~$1.00

Modèle 90B

Les prix varient. Vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Économisez de l'argent :

  • Utilisez Spot ordres pour le traitement par lot

  • Payer avec CLORE jetons

  • Utilisez des modèles quantifiés (4 bits) pour le développement

Dépannage

Mémoire insuffisante

Génération lente

  • Assurez-vous que le GPU est utilisé (vérifiez nvidia-smi)

  • Utilisez bfloat16 au lieu de float32

  • Réduisez la résolution de l'image avant le traitement

  • Utilisez vLLM pour un meilleur débit

Image ne se charge pas

Jeton HuggingFace requis

Llama Vision vs Autres

Fonction
Llama 3.2 Vision
LLaVA 1.6
GPT-4V

Paramètres

11B / 90B

7B / 34B

Inconnu

Open source

Oui

Oui

Non

Qualité OCR

Excellent

Bon

Excellent

Contexte

128K

32K

128K

Multi-image

Oui

Limité

Oui

Licence

Llama 3.2

Apache 2.0

Propriétaire

Utilisez Llama 3.2 Vision lorsque :

  • Besoin d'un multimodal open source

  • OCR et analyse de documents

  • Intégration avec l'écosystème Llama

  • Compréhension de contexte long

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?