# Überblick

Führen Sie große Sprachmodelle (LLMs) auf CLORE.AI-GPUs für Inferenz- und Chat-Anwendungen aus.

## Beliebte Tools

| Werkzeug                                                                                               | Anwendungsfall                            | Schwierigkeit |
| ------------------------------------------------------------------------------------------------------ | ----------------------------------------- | ------------- |
| [Ollama](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/ollama)                               | Einfachste LLM-Einrichtung                | Anfänger      |
| [Open WebUI](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/open-webui)                       | ChatGPT-ähnliche Oberfläche               | Anfänger      |
| [vLLM](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/vllm)                                   | Durchsatzstarke Produktionsbereitstellung | Mittel        |
| [Llama.cpp Server](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/llamacpp-server)            | Effiziente GGUF-Inferenz                  | Einfach       |
| [Text Generation WebUI](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/text-generation-webui) | Voll ausgestattete Chat-Oberfläche        | Einfach       |
| [ExLlamaV2](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/exllamav2-fast)                    | Schnellste EXL2-Inferenz                  | Mittel        |
| [LocalAI](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/localai-openai-compatible)           | OpenAI-kompatible API                     | Mittel        |
| [SGLang](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/sglang)                               | Schnelle strukturierte Generierung        | Mittel        |
| [Text Generation Inference (TGI)](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/tgi)         | HuggingFace-Serving-Lösung                | Mittel        |
| [LMDeploy](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/lmdeploy)                           | MMlab-Serving-Toolkit                     | Mittel        |
| [Aphrodite Engine](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/aphrodite-engine)           | vLLM-Fork mit zusätzlichen Funktionen     | Mittel        |
| [MLC-LLM](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/mlc-llm)                             | Maschinelles Lernkompilieren              | Schwierig     |
| [LiteLLM](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/litellm)                             | Vereinheitlichter API-Proxy               | Mittel        |
| [PowerInfer](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/powerinfer)                       | Sparsame Modellinferenz                   | Schwierig     |
| [Mistral.rs](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/mistral-rs)                       | Rust-basierte Inferenz-Engine             | Mittel        |

## Modellanleitungen

### Neueste & beste Modelle

| Modell                                                                             | Parameter           | Am besten für                    |
| ---------------------------------------------------------------------------------- | ------------------- | -------------------------------- |
| [DeepSeek-V3](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/deepseek-v3) | 671B MoE            | Schlussfolgern, Code, Mathematik |
| [DeepSeek-R1](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/deepseek-r1) | 671B MoE            | Fortgeschrittenes Schlussfolgern |
| [DeepSeek V4](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/deepseek-v4) | Wird bekanntgegeben | Nächste Generation von DeepSeek  |
| [Qwen2.5](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/qwen25)          | 0,5B–72B            | Mehrsprachig, Code               |
| [Qwen3.5](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/qwen35)          | Wird bekanntgegeben | Neueste Qwen-Generation          |
| [Llama 3.3](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/llama33)       | 70B                 | Metas neuestes 70B               |
| [Llama 4](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/llama4)          | Wird bekanntgegeben | Scout- & Maverick-Varianten      |

### Spezialisierte Modelle

| Modell                                                                                   | Parameter           | Am besten für               |
| ---------------------------------------------------------------------------------------- | ------------------- | --------------------------- |
| [DeepSeek Coder](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/deepseek-coder) | 6,7B–33B            | Code-Generierung            |
| [CodeLlama](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/codellama)           | 7B–34B              | Codevervollständigung       |
| [GLM-4.7-Flash](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/glm-47-flash)    | 4,7B                | Schnell Chinesisch/Englisch |
| [GLM-5](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/glm5)                    | Wird bekanntgegeben | Zhipu AI neuestes           |
| [Kimi K2.5](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/kimi-k2)             | Wird bekanntgegeben | Moonshot AI-Modell          |
| [Ling-2.5-1T](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/ling25)            | 1T                  | Massives Open-Source-LLM    |
| [LFM2-24B](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/lfm2-24b)             | 24B                 | Liquid-AI-Modell            |
| [MiMo-V2-Flash](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/mimo-v2-flash)   | Wird bekanntgegeben | Schnelles Inferenzmodell    |

### Effiziente Modelle

| Modell                                                                                     | Parameter           | Am besten für                     |
| ------------------------------------------------------------------------------------------ | ------------------- | --------------------------------- |
| [Gemma 2](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/gemma2)                  | 2B–27B              | Effiziente Inferenz               |
| [Gemma 3](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/gemma3)                  | Wird bekanntgegeben | Googles neuestes kompaktes Modell |
| [Phi-4](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/phi4)                      | 14B                 | Klein, aber leistungsfähig        |
| [Mistral/Mixtral](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/mistral-mixtral) | 7B / 8x7B           | Allzweck                          |
| [Mistral Large 3](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/mistral-large3)  | 675B MoE            | Unternehmensklasse                |
| [Mistral Small 3.1](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/mistral-small) | Wird bekanntgegeben | Effiziente Mistral-Variante       |

## GPU-Empfehlungen

| Modellgröße | Mindest-GPU   | Empfohlen |
| ----------- | ------------- | --------- |
| 7B (Q4)     | RTX 3060 12GB | RTX 3090  |
| 13B (Q4)    | RTX 3090 24GB | RTX 4090  |
| 34B (Q4)    | 2x RTX 3090   | A100 40GB |
| 70B (Q4)    | A100 80GB     | 2x A100   |

## Quantisierungsanleitung

| Format   | VRAM-Nutzung   | Qualität      | Geschwindigkeit |
| -------- | -------------- | ------------- | --------------- |
| Q2\_K    | Am niedrigsten | Schlecht      | Am schnellsten  |
| Q4\_K\_M | Niedrig        | Gut           | Schnell         |
| Q5\_K\_M | Mittel         | Großartig     | Mittel          |
| Q8\_0    | Hoch           | Ausgezeichnet | Langsamer       |
| FP16     | Am höchsten    | Am besten     | Am langsamsten  |

## Siehe auch

* [Training & Feinabstimmung](https://docs.clore.ai/guides/guides_v2-de/training/training)
* [Vision-Sprach-Modelle](https://docs.clore.ai/guides/guides_v2-de/vision-modelle/vision-models)
