LLaVA

Chatea con imágenes usando el modelo visión-lenguaje LLaVA en Clore.ai

Chatea con imágenes usando LLaVA: la alternativa de código abierto a GPT-4V.

circle-check

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es LLaVA?

LLaVA (Large Language and Vision Assistant) puede:

  • Entender y describir imágenes

  • Responder preguntas sobre contenido visual

  • Analizar gráficos, diagramas, capturas de pantalla

  • OCR y comprensión de documentos

Variantes de modelo

Modelo
Tamaño
VRAM
Calidad

LLaVA-1.5-7B

7B

8GB

Bueno

LLaVA-1.5-13B

13B

16GB

Mejor

LLaVA-1.6-34B

34B

40GB

Mejor

LLaVA-NeXT

7-34B

8-40GB

Último

Despliegue rápido

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Instalación

Uso básico

API de Python

Usando Transformers

Integración con Ollama (Recomendado)

La forma más fácil de ejecutar LLaVA en CLORE.AI:

API de LLaVA vía Ollama

circle-exclamation

Método de trabajo: /api/generate

Respuesta:

NO funciona: /api/chat (devuelve null para visión)

Python con Ollama

Ejemplo completo que funciona

Casos de uso

Descripción de la imagen

OCR / Extracción de texto

Análisis de gráficos

Código de una captura de pantalla

Detección de objetos

Interfaz Gradio

Servidor API

Procesamiento por lotes

Optimización de memoria

Cuantización a 4 bits

Descarga a CPU (CPU Offload)

Rendimiento

Modelo
GPU
Tokens/seg

LLaVA-1.5-7B

RTX 3090

~30

LLaVA-1.5-7B

RTX 4090

~45

LLaVA-1.6-7B

RTX 4090

~40

LLaVA-1.5-13B

A100

~35

Solución de problemas

Memoria insuficiente

Generación lenta

  • Usar flash attention

  • Reducir max_new_tokens

  • Usar modelo cuantizado

Calidad pobre

  • Usa un modelo más grande

  • Mejores prompts con contexto

  • Imágenes de mayor resolución

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Próximos pasos

  • LLMs de Ollama - Ejecutar LLaVA con Ollama

  • RAG + LangChain - Visión + RAG

  • Inferencia vLLM - Servicio en producción

Última actualización

¿Te fue útil?