Resumen

Visión por computadora y modelos visión-idioma en GPU de CLORE.AI.

Guías disponibles

Modelo

Caso de uso

Chat y preguntas visuales

Visión multitarea

Segmentación de video

GroundingDINO

Detección zero-shot

Casos de uso

Comprensión de imágenes - LLaVA, Florence-2
Detección de objetos - GroundingDINO, YOLO
Segmentación - SAM2, Segment Anything
Generación de descripciones - Florence-2, LLaVA

Requisitos de GPU

Modelo

VRAM mínima

LLaVA 7B

8GB

Florence-2

8GB

SAM2

8GB

GroundingDINO

6GB

Guías relacionadas

Modelos de Lenguaje
Visión por Computadora

AnteriorInterpolación RIFE SiguienteLlama 3.2 Vision

Última actualización hace 2 meses

¿Te fue útil?