> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/language-models.md).

# Aperçu

Exécutez de grands modèles de langage (LLM) sur les GPU CLORE.AI pour des applications d'inférence et de chat.

## Outils populaires

| Outil                                                                                     | Cas d'utilisation                                 | Difficulté |
| ----------------------------------------------------------------------------------------- | ------------------------------------------------- | ---------- |
| [Ollama](/guides/guides_v2-fr/modeles-de-langage/ollama.md)                               | Configuration LLM la plus simple                  | Débutant   |
| [Ouvrir WebUI](/guides/guides_v2-fr/modeles-de-langage/open-webui.md)                     | Interface de type ChatGPT                         | Débutant   |
| [vLLM](/guides/guides_v2-fr/modeles-de-langage/vllm.md)                                   | Service de production à haut débit                | Moyen      |
| [Llama.cpp Server](/guides/guides_v2-fr/modeles-de-langage/llamacpp-server.md)            | Inférence GGUF efficace                           | Facile     |
| [Text Generation WebUI](/guides/guides_v2-fr/modeles-de-langage/text-generation-webui.md) | Interface de chat complète                        | Facile     |
| [ExLlamaV2](/guides/guides_v2-fr/modeles-de-langage/exllamav2-fast.md)                    | Inférence EXL2 la plus rapide                     | Moyen      |
| [LocalAI](/guides/guides_v2-fr/modeles-de-langage/localai-openai-compatible.md)           | API compatible OpenAI                             | Moyen      |
| [SGLang](/guides/guides_v2-fr/modeles-de-langage/sglang.md)                               | Génération structurée rapide                      | Moyen      |
| [Text Generation Inference (TGI)](/guides/guides_v2-fr/modeles-de-langage/tgi.md)         | Solution de serving HuggingFace                   | Moyen      |
| [LMDeploy](/guides/guides_v2-fr/modeles-de-langage/lmdeploy.md)                           | Boîte à outils de serving MMlab                   | Moyen      |
| [Aphrodite Engine](/guides/guides_v2-fr/modeles-de-langage/aphrodite-engine.md)           | Fork de vLLM avec fonctionnalités supplémentaires | Moyen      |
| [MLC-LLM](/guides/guides_v2-fr/modeles-de-langage/mlc-llm.md)                             | Compilation pour apprentissage automatique        | Difficile  |
| [LiteLLM](/guides/guides_v2-fr/modeles-de-langage/litellm.md)                             | Proxy API unifié                                  | Moyen      |
| [PowerInfer](/guides/guides_v2-fr/modeles-de-langage/powerinfer.md)                       | Inférence de modèles clairsemés                   | Difficile  |
| [Mistral.rs](/guides/guides_v2-fr/modeles-de-langage/mistral-rs.md)                       | Moteur d'inférence en Rust                        | Moyen      |

## Guides de modèles

### Derniers et meilleurs modèles

| Modèle                                                                | Paramètres | Idéal pour                        |
| --------------------------------------------------------------------- | ---------- | --------------------------------- |
| [DeepSeek-V3](/guides/guides_v2-fr/modeles-de-langage/deepseek-v3.md) | 671B MoE   | Raisonnement, code, mathématiques |
| [DeepSeek-R1](/guides/guides_v2-fr/modeles-de-langage/deepseek-r1.md) | 671B MoE   | Raisonnement avancé               |
| [DeepSeek V4](/guides/guides_v2-fr/modeles-de-langage/deepseek-v4.md) | À venir    | DeepSeek de nouvelle génération   |
| [Qwen2.5](/guides/guides_v2-fr/modeles-de-langage/qwen25.md)          | 0,5B-72B   | Multilingue, code                 |
| [Qwen3.5](/guides/guides_v2-fr/modeles-de-langage/qwen35.md)          | À venir    | Dernière génération Qwen          |
| [Llama 3.3](/guides/guides_v2-fr/modeles-de-langage/llama33.md)       | 70B        | Le dernier 70B de Meta            |
| [Llama 4](/guides/guides_v2-fr/modeles-de-langage/llama4.md)          | À venir    | Variantes Scout & Maverick        |

### Modèles spécialisés

| Modèle                                                                      | Paramètres | Idéal pour                |
| --------------------------------------------------------------------------- | ---------- | ------------------------- |
| [DeepSeek Coder](/guides/guides_v2-fr/modeles-de-langage/deepseek-coder.md) | 6,7B-33B   | Génération de code        |
| [CodeLlama](/guides/guides_v2-fr/modeles-de-langage/codellama.md)           | 7B-34B     | Complétion de code        |
| [GLM-4.7-Flash](/guides/guides_v2-fr/modeles-de-langage/glm-47-flash.md)    | 4,7B       | Chinois/Anglais rapide    |
| [GLM-5](/guides/guides_v2-fr/modeles-de-langage/glm5.md)                    | À venir    | Dernier de Zhipu AI       |
| [Kimi K2.5](/guides/guides_v2-fr/modeles-de-langage/kimi-k2.md)             | À venir    | Modèle Moonshot AI        |
| [Ling-2.5-1T](/guides/guides_v2-fr/modeles-de-langage/ling25.md)            | 1T         | LLM open-source massif    |
| [LFM2-24B](/guides/guides_v2-fr/modeles-de-langage/lfm2-24b.md)             | 24B        | Modèle Liquid AI          |
| [MiMo-V2-Flash](/guides/guides_v2-fr/modeles-de-langage/mimo-v2-flash.md)   | À venir    | Modèle d'inférence rapide |

### Modèles efficaces

| Modèle                                                                        | Paramètres | Idéal pour                   |
| ----------------------------------------------------------------------------- | ---------- | ---------------------------- |
| [Gemma 2](/guides/guides_v2-fr/modeles-de-langage/gemma2.md)                  | 2B-27B     | Inférence efficace           |
| [Gemma 3](/guides/guides_v2-fr/modeles-de-langage/gemma3.md)                  | À venir    | Le dernier compact de Google |
| [Phi-4](/guides/guides_v2-fr/modeles-de-langage/phi4.md)                      | 14B        | Petit mais capable           |
| [Mistral/Mixtral](/guides/guides_v2-fr/modeles-de-langage/mistral-mixtral.md) | 7B / 8x7B  | Usage général                |
| [Mistral Large 3](/guides/guides_v2-fr/modeles-de-langage/mistral-large3.md)  | 675B MoE   | De qualité entreprise        |
| [Mistral Small 3.1](/guides/guides_v2-fr/modeles-de-langage/mistral-small.md) | À venir    | Variante Mistral efficace    |

## Recommandations GPU

| Taille du modèle | GPU minimum   | Recommandé |
| ---------------- | ------------- | ---------- |
| 7B (Q4)          | RTX 3060 12GB | RTX 3090   |
| 13B (Q4)         | RTX 3090 24GB | RTX 4090   |
| 34B (Q4)         | 2x RTX 3090   | A100 40GB  |
| 70B (Q4)         | A100 80GB     | 2x A100    |

## Guide de quantification

| Format   | Utilisation VRAM | Qualité   | Vitesse        |
| -------- | ---------------- | --------- | -------------- |
| Q2\_K    | Le plus faible   | Faible    | Le plus rapide |
| Q4\_K\_M | Faible           | Bien      | Rapide         |
| Q5\_K\_M | Moyen            | Très bien | Moyen          |
| Q8\_0    | Élevée           | Excellent | Plus lent      |
| FP16     | Le plus élevé    | Meilleur  | Le plus lent   |

## Voir aussi

* [Entraînement et fine-tuning](/guides/guides_v2-fr/entrainement/training.md)
* [Modèles vision-langage](/guides/guides_v2-fr/modeles-de-vision/vision-models.md)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/language-models.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
