# Présentation

Exécutez de grands modèles de langage (LLM) sur les GPU CLORE.AI pour des applications d'inférence et de chat.

## Outils populaires

| Outil                                                                                                       | Cas d'utilisation                                 | Difficulté |
| ----------------------------------------------------------------------------------------------------------- | ------------------------------------------------- | ---------- |
| [Ollama](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/ollama)                               | Configuration LLM la plus simple                  | Débutant   |
| [Ouvrir WebUI](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/open-webui)                     | Interface de type ChatGPT                         | Débutant   |
| [vLLM](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/vllm)                                   | Service de production à haut débit                | Moyen      |
| [Llama.cpp Server](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/llamacpp-server)            | Inférence GGUF efficace                           | Facile     |
| [Text Generation WebUI](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/text-generation-webui) | Interface de chat complète                        | Facile     |
| [ExLlamaV2](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/exllamav2-fast)                    | Inférence EXL2 la plus rapide                     | Moyen      |
| [LocalAI](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/localai-openai-compatible)           | API compatible OpenAI                             | Moyen      |
| [SGLang](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/sglang)                               | Génération structurée rapide                      | Moyen      |
| [Text Generation Inference (TGI)](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/tgi)         | Solution de serving HuggingFace                   | Moyen      |
| [LMDeploy](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/lmdeploy)                           | Boîte à outils de serving MMlab                   | Moyen      |
| [Aphrodite Engine](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/aphrodite-engine)           | Fork de vLLM avec fonctionnalités supplémentaires | Moyen      |
| [MLC-LLM](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/mlc-llm)                             | Compilation pour apprentissage automatique        | Difficile  |
| [LiteLLM](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/litellm)                             | Proxy API unifié                                  | Moyen      |
| [PowerInfer](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/powerinfer)                       | Inférence de modèles clairsemés                   | Difficile  |
| [Mistral.rs](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/mistral-rs)                       | Moteur d'inférence en Rust                        | Moyen      |

## Guides de modèles

### Derniers et meilleurs modèles

| Modèle                                                                                  | Paramètres | Idéal pour                        |
| --------------------------------------------------------------------------------------- | ---------- | --------------------------------- |
| [DeepSeek-V3](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/deepseek-v3) | 671B MoE   | Raisonnement, code, mathématiques |
| [DeepSeek-R1](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/deepseek-r1) | 671B MoE   | Raisonnement avancé               |
| [DeepSeek V4](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/deepseek-v4) | À venir    | DeepSeek de nouvelle génération   |
| [Qwen2.5](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/qwen25)          | 0,5B-72B   | Multilingue, code                 |
| [Qwen3.5](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/qwen35)          | À venir    | Dernière génération Qwen          |
| [Llama 3.3](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/llama33)       | 70B        | Le dernier 70B de Meta            |
| [Llama 4](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/llama4)          | À venir    | Variantes Scout & Maverick        |

### Modèles spécialisés

| Modèle                                                                                        | Paramètres | Idéal pour                |
| --------------------------------------------------------------------------------------------- | ---------- | ------------------------- |
| [DeepSeek Coder](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/deepseek-coder) | 6,7B-33B   | Génération de code        |
| [CodeLlama](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/codellama)           | 7B-34B     | Complétion de code        |
| [GLM-4.7-Flash](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/glm-47-flash)    | 4,7B       | Chinois/Anglais rapide    |
| [GLM-5](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/glm5)                    | À venir    | Dernier de Zhipu AI       |
| [Kimi K2.5](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/kimi-k2)             | À venir    | Modèle Moonshot AI        |
| [Ling-2.5-1T](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/ling25)            | 1T         | LLM open-source massif    |
| [LFM2-24B](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/lfm2-24b)             | 24B        | Modèle Liquid AI          |
| [MiMo-V2-Flash](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/mimo-v2-flash)   | À venir    | Modèle d'inférence rapide |

### Modèles efficaces

| Modèle                                                                                          | Paramètres | Idéal pour                   |
| ----------------------------------------------------------------------------------------------- | ---------- | ---------------------------- |
| [Gemma 2](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/gemma2)                  | 2B-27B     | Inférence efficace           |
| [Gemma 3](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/gemma3)                  | À venir    | Le dernier compact de Google |
| [Phi-4](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/phi4)                      | 14B        | Petit mais capable           |
| [Mistral/Mixtral](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/mistral-mixtral) | 7B / 8x7B  | Usage général                |
| [Mistral Large 3](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/mistral-large3)  | 675B MoE   | De qualité entreprise        |
| [Mistral Small 3.1](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/mistral-small) | À venir    | Variante Mistral efficace    |

## Recommandations GPU

| Taille du modèle | GPU minimum   | Recommandé |
| ---------------- | ------------- | ---------- |
| 7B (Q4)          | RTX 3060 12GB | RTX 3090   |
| 13B (Q4)         | RTX 3090 24GB | RTX 4090   |
| 34B (Q4)         | 2x RTX 3090   | A100 40GB  |
| 70B (Q4)         | A100 80GB     | 2x A100    |

## Guide de quantification

| Format   | Utilisation VRAM | Qualité   | Vitesse        |
| -------- | ---------------- | --------- | -------------- |
| Q2\_K    | Le plus faible   | Faible    | Le plus rapide |
| Q4\_K\_M | Faible           | Bien      | Rapide         |
| Q5\_K\_M | Moyen            | Très bien | Moyen          |
| Q8\_0    | Élevée           | Excellent | Plus lent      |
| FP16     | Le plus élevé    | Meilleur  | Le plus lent   |

## Voir aussi

* [Entraînement et fine-tuning](https://docs.clore.ai/guides/guides_v2-fr/entrainement/training)
* [Modèles vision-langage](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-vision/vision-models)
