# Présentation

Vision par ordinateur et modèles vision-langage sur les GPU CLORE.AI.

## Guides disponibles

| Modèle                                                                                     | Cas d'utilisation                      |
| ------------------------------------------------------------------------------------------ | -------------------------------------- |
| [LLaVA](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-vision/llava-vision-language) | Chat visuel et QA                      |
| [Florence-2](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-vision/florence2)        | Vision multitâche                      |
| [SAM2](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-vision/sam2-video)             | Segmentation vidéo                     |
| [GroundingDINO](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-vision/groundingdino) | Détection sans apprentissage préalable |

## Cas d'utilisation

* **Compréhension d'image** - LLaVA, Florence-2
* **Détection d'objets** - GroundingDINO, YOLO
* **Segmentation** - SAM2, Segment Anything
* **Génération de légendes** - Florence-2, LLaVA

## Exigences GPU

| Modèle        | VRAM minimale |
| ------------- | ------------- |
| LLaVA 7B      | 8 Go          |
| Florence-2    | 8 Go          |
| SAM2          | 8 Go          |
| GroundingDINO | 6 Go          |

## Guides connexes

* [Modèles de langage](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/language-models)
* [Vision par ordinateur](https://docs.clore.ai/guides/guides_v2-fr/vision-par-ordinateur/computer-vision)
