Llama 3.2 Vision

Ejecuta Llama 3.2 Vision de Meta para comprensión de imágenes en Clore.ai

Ejecute los modelos multimodales Llama 3.2 Vision de Meta para comprensión de imágenes en las GPU de CLORE.AI.

circle-check

¿Por qué Llama 3.2 Vision?

  • Multimodal - Comprende tanto texto como imágenes

  • Múltiples tamaños - Versiones de 11B y 90B parámetros

  • Versátil - OCR, preguntas y respuestas visuales, generación de subtítulos de imágenes, análisis de documentos

  • Pesos abiertos - Completamente de código abierto por Meta

  • Ecosistema Llama - Compatible con Ollama, vLLM, transformers

Variantes de modelo

Modelo
Parámetros
VRAM (FP16)
Contexto
Mejor para

Llama-3.2-11B-Vision

11B

24GB

128K

Uso general, GPU única

Llama-3.2-90B-Vision

90B

180GB

128K

Calidad máxima

Llama-3.2-11B-Vision-Instruct

11B

24GB

128K

Chat/asistente

Llama-3.2-90B-Vision-Instruct

90B

180GB

128K

Producción

Despliegue rápido en CLORE.AI

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Requisitos de hardware

Modelo
GPU mínima
Recomendado
Óptimo

11B Vision

RTX 4090 24GB

A100 40GB

A100 80GB

90B Vision

4x A100 40GB

4x A100 80GB

8x H100

Instalación

Usando Ollama (Más fácil)

Usando vLLM

Usando Transformers

Uso básico

Comprensión de imágenes

Con Ollama

Con la API de vLLM

Casos de uso

OCR / Extracción de texto

Análisis de documentos

Preguntas y respuestas visuales

Generación de subtítulos para imágenes

Código a partir de capturas de pantalla

Múltiples imágenes

Procesamiento por lotes

Interfaz Gradio

Rendimiento

Tarea
Modelo
GPU
Tiempo

Descripción de imagen única

11B

RTX 4090

~3s

Descripción de imagen única

11B

A100 40GB

~2s

OCR (1 página)

11B

RTX 4090

~5s

Análisis de documentos

11B

A100 40GB

~8s

Lote (10 imágenes)

11B

A100 40GB

~25s

Cuantización

4-bit con bitsandbytes

GGUF con Ollama

Estimación de costos

Tarifas típicas del mercado de CLORE.AI:

GPU
Tarifa por hora
Mejor para

RTX 4090 24GB

~$0.10

Modelo 11B

A100 40GB

~$0.17

11B con contexto largo

A100 80GB

~$0.25

11B óptimo

4x A100 80GB

~$1.00

Modelo 90B

Los precios varían. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot órdenes para procesamiento por lotes

  • Paga con CLORE tokens

  • Use modelos cuantizados (4 bits) para desarrollo

Solución de problemas

Memoria insuficiente

Generación lenta

  • Asegúrese de que se esté usando la GPU (verifique nvidia-smi)

  • Use bfloat16 en lugar de float32

  • Reduzca la resolución de la imagen antes de procesarla

  • Use vLLM para mejor rendimiento

Imagen no cargando

Token de HuggingFace requerido

Llama Vision vs Otros

Función
Llama 3.2 Vision
LLaVA 1.6
GPT-4V

Parámetros

11B / 90B

7B / 34B

Desconocido

Código abierto

No

Calidad de OCR

Excelente

Bueno

Excelente

Contexto

128K

32K

128K

Multi-imagen

Limitado

Licencia

Llama 3.2

Apache 2.0

Proprietario

Usa Llama 3.2 Vision cuando:

  • Necesitas multimodal de código abierto

  • OCR y análisis de documentos

  • Integración con el ecosistema Llama

  • Comprensión de contexto largo

Próximos pasos

  • LLaVA - Modelo de visión alternativo

  • Florence-2 - Modelo de visión de Microsoft

  • Ollama - Despliegue sencillo

  • vLLM - Servir en producción

Última actualización

¿Te fue útil?