# Overview

Run large language models (LLMs) on CLORE.AI GPUs for inference and chat applications.

## Popular Tools

| Tool                                                                      | Use Case                           | Difficulty |
| ------------------------------------------------------------------------- | ---------------------------------- | ---------- |
| [Ollama](/guides/language-models/ollama.md)                               | Easiest LLM setup                  | Beginner   |
| [Open WebUI](/guides/language-models/open-webui.md)                       | ChatGPT-like interface             | Beginner   |
| [vLLM](/guides/language-models/vllm.md)                                   | High-throughput production serving | Medium     |
| [Llama.cpp Server](/guides/language-models/llamacpp-server.md)            | Efficient GGUF inference           | Easy       |
| [Text Generation WebUI](/guides/language-models/text-generation-webui.md) | Full-featured chat UI              | Easy       |
| [ExLlamaV2](/guides/language-models/exllamav2-fast.md)                    | Fastest EXL2 inference             | Medium     |
| [LocalAI](/guides/language-models/localai-openai-compatible.md)           | OpenAI-compatible API              | Medium     |
| [SGLang](/guides/language-models/sglang.md)                               | Fast structured generation         | Medium     |
| [Text Generation Inference (TGI)](/guides/language-models/tgi.md)         | HuggingFace serving solution       | Medium     |
| [LMDeploy](/guides/language-models/lmdeploy.md)                           | MMlab serving toolkit              | Medium     |
| [Aphrodite Engine](/guides/language-models/aphrodite-engine.md)           | vLLM fork with extra features      | Medium     |
| [MLC-LLM](/guides/language-models/mlc-llm.md)                             | Machine learning compilation       | Hard       |
| [LiteLLM](/guides/language-models/litellm.md)                             | Unified API proxy                  | Medium     |
| [PowerInfer](/guides/language-models/powerinfer.md)                       | Sparse model inference             | Hard       |
| [Mistral.rs](/guides/language-models/mistral-rs.md)                       | Rust-based inference engine        | Medium     |

## Model Guides

### Latest & Best Models

| Model                                                 | Parameters | Best For                  |
| ----------------------------------------------------- | ---------- | ------------------------- |
| [DeepSeek-V3](/guides/language-models/deepseek-v3.md) | 671B MoE   | Reasoning, code, math     |
| [DeepSeek-R1](/guides/language-models/deepseek-r1.md) | 671B MoE   | Advanced reasoning        |
| [DeepSeek V4](/guides/language-models/deepseek-v4.md) | TBA        | Next-generation DeepSeek  |
| [Qwen2.5](/guides/language-models/qwen25.md)          | 0.5B-72B   | Multilingual, code        |
| [Qwen3.5](/guides/language-models/qwen35.md)          | TBA        | Latest Qwen generation    |
| [Llama 3.3](/guides/language-models/llama33.md)       | 70B        | Meta's latest 70B         |
| [Llama 4](/guides/language-models/llama4.md)          | TBA        | Scout & Maverick variants |

### Specialized Models

| Model                                                       | Parameters | Best For                |
| ----------------------------------------------------------- | ---------- | ----------------------- |
| [DeepSeek Coder](/guides/language-models/deepseek-coder.md) | 6.7B-33B   | Code generation         |
| [CodeLlama](/guides/language-models/codellama.md)           | 7B-34B     | Code completion         |
| [GLM-4.7-Flash](/guides/language-models/glm-47-flash.md)    | 4.7B       | Fast Chinese/English    |
| [GLM-5](/guides/language-models/glm5.md)                    | TBA        | Zhipu AI latest         |
| [Kimi K2.5](/guides/language-models/kimi-k2.md)             | TBA        | Moonshot AI model       |
| [Ling-2.5-1T](/guides/language-models/ling25.md)            | 1T         | Massive open-source LLM |
| [LFM2-24B](/guides/language-models/lfm2-24b.md)             | 24B        | Liquid AI model         |
| [MiMo-V2-Flash](/guides/language-models/mimo-v2-flash.md)   | TBA        | Fast inference model    |

### Efficient Models

| Model                                                         | Parameters | Best For                  |
| ------------------------------------------------------------- | ---------- | ------------------------- |
| [Gemma 2](/guides/language-models/gemma2.md)                  | 2B-27B     | Efficient inference       |
| [Gemma 3](/guides/language-models/gemma3.md)                  | TBA        | Google's latest compact   |
| [Phi-4](/guides/language-models/phi4.md)                      | 14B        | Small but capable         |
| [Mistral/Mixtral](/guides/language-models/mistral-mixtral.md) | 7B / 8x7B  | General purpose           |
| [Mistral Large 3](/guides/language-models/mistral-large3.md)  | 675B MoE   | Enterprise-grade          |
| [Mistral Small 3.1](/guides/language-models/mistral-small.md) | TBA        | Efficient Mistral variant |

## GPU Recommendations

| Model Size | Minimum GPU   | Recommended |
| ---------- | ------------- | ----------- |
| 7B (Q4)    | RTX 3060 12GB | RTX 3090    |
| 13B (Q4)   | RTX 3090 24GB | RTX 4090    |
| 34B (Q4)   | 2x RTX 3090   | A100 40GB   |
| 70B (Q4)   | A100 80GB     | 2x A100     |

## Quantization Guide

| Format   | VRAM Usage | Quality   | Speed   |
| -------- | ---------- | --------- | ------- |
| Q2\_K    | Lowest     | Poor      | Fastest |
| Q4\_K\_M | Low        | Good      | Fast    |
| Q5\_K\_M | Medium     | Great     | Medium  |
| Q8\_0    | High       | Excellent | Slower  |
| FP16     | Highest    | Best      | Slowest |

## See Also

* [Training & Fine-tuning](/guides/training/training.md)
* [Vision-Language Models](/guides/vision-models/vision-models.md)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/language-models/language-models.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.