# Resumen

Visión por computadora y modelos visión-idioma en GPU de CLORE.AI.

## Guías disponibles

| Modelo                                                                                     | Caso de uso               |
| ------------------------------------------------------------------------------------------ | ------------------------- |
| [LLaVA](https://docs.clore.ai/guides/guides_v2-es/modelos-de-vision/llava-vision-language) | Chat y preguntas visuales |
| [Florence-2](https://docs.clore.ai/guides/guides_v2-es/modelos-de-vision/florence2)        | Visión multitarea         |
| [SAM2](https://docs.clore.ai/guides/guides_v2-es/modelos-de-vision/sam2-video)             | Segmentación de video     |
| [GroundingDINO](https://docs.clore.ai/guides/guides_v2-es/modelos-de-vision/groundingdino) | Detección zero-shot       |

## Casos de uso

* **Comprensión de imágenes** - LLaVA, Florence-2
* **Detección de objetos** - GroundingDINO, YOLO
* **Segmentación** - SAM2, Segment Anything
* **Generación de descripciones** - Florence-2, LLaVA

## Requisitos de GPU

| Modelo        | VRAM mínima |
| ------------- | ----------- |
| LLaVA 7B      | 8GB         |
| Florence-2    | 8GB         |
| SAM2          | 8GB         |
| GroundingDINO | 6GB         |

## Guías relacionadas

* [Modelos de Lenguaje](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/language-models)
* [Visión por Computadora](https://docs.clore.ai/guides/guides_v2-es/vision-por-computadora/computer-vision)
