Übersicht

Führen Sie große Sprachmodelle (LLMs) auf CLORE.AI-GPUs für Inferenz- und Chat-Anwendungen aus.

Beliebte Tools

Werkzeug

Anwendungsfall

Schwierigkeit

Ollama

Einfachste LLM-Einrichtung

Anfänger

Open WebUI

ChatGPT-ähnliche Oberfläche

Anfänger

vLLM

Durchsatzstarke Produktionsbereitstellung

Mittel

Llama.cpp Server

Effiziente GGUF-Inferenz

Einfach

Text Generation WebUI

Voll ausgestattete Chat-Oberfläche

Einfach

ExLlamaV2

Schnellste EXL2-Inferenz

Mittel

LocalAI

OpenAI-kompatible API

Mittel

SGLang

Schnelle strukturierte Generierung

Mittel

Text Generation Inference (TGI)

HuggingFace-Serving-Lösung

Mittel

LMDeploy

MMlab-Serving-Toolkit

Mittel

Aphrodite Engine

vLLM-Fork mit zusätzlichen Funktionen

Mittel

MLC-LLM

Maschinelles Lernkompilieren

Schwierig

LiteLLM

Vereinheitlichter API-Proxy

Mittel

PowerInfer

Sparsame Modellinferenz

Schwierig

Mistral.rs

Rust-basierte Inferenz-Engine

Mittel

Modellanleitungen

Neueste & beste Modelle

Modell

Parameter

Am besten für

DeepSeek-V3

671B MoE

Schlussfolgern, Code, Mathematik

DeepSeek-R1

671B MoE

Fortgeschrittenes Schlussfolgern

DeepSeek V4

Wird bekanntgegeben

Nächste Generation von DeepSeek

Qwen2.5

0,5B–72B

Mehrsprachig, Code

Qwen3.5

Wird bekanntgegeben

Neueste Qwen-Generation

Llama 3.3

70B

Metas neuestes 70B

Llama 4

Wird bekanntgegeben

Scout- & Maverick-Varianten

Spezialisierte Modelle

Modell

Parameter

Am besten für

DeepSeek Coder

6,7B–33B

Code-Generierung

CodeLlama

7B–34B

Codevervollständigung

GLM-4.7-Flash

4,7B

Schnell Chinesisch/Englisch

GLM-5

Wird bekanntgegeben

Zhipu AI neuestes

Kimi K2.5

Wird bekanntgegeben

Moonshot AI-Modell

Ling-2.5-1T

Massives Open-Source-LLM

LFM2-24B

24B

Liquid-AI-Modell

MiMo-V2-Flash

Wird bekanntgegeben

Schnelles Inferenzmodell

Effiziente Modelle

Modell

Parameter

Am besten für

Gemma 2

2B–27B

Effiziente Inferenz

Gemma 3

Wird bekanntgegeben

Googles neuestes kompaktes Modell

Phi-4

14B

Klein, aber leistungsfähig

Mistral/Mixtral

7B / 8x7B

Allzweck

Mistral Large 3

675B MoE

Unternehmensklasse

Mistral Small 3.1

Wird bekanntgegeben

Effiziente Mistral-Variante

GPU-Empfehlungen

Modellgröße

Mindest-GPU

Quantisierungsanleitung

Format

VRAM-Nutzung

Qualität

Geschwindigkeit

Q2_K

Am niedrigsten

Schlecht

Am schnellsten

Q4_K_M

Niedrig

Gut

Schnell

Q5_K_M

Mittel

Großartig

Mittel

Q8_0

Hoch

Ausgezeichnet

Langsamer

FP16

Am höchsten

Am besten

Am langsamsten

Siehe auch

VorherigeFehlerbehebung NächsteOllama

Zuletzt aktualisiert vor 7 Tagen

War das hilfreich?

hashtagBeliebte Tools

hashtagModellanleitungen

hashtagNeueste & beste Modelle

hashtagSpezialisierte Modelle

hashtagEffiziente Modelle

hashtagGPU-Empfehlungen

hashtagQuantisierungsanleitung

hashtagSiehe auch

Beliebte Tools

Modellanleitungen

Neueste & beste Modelle

Spezialisierte Modelle

Effiziente Modelle

GPU-Empfehlungen

Quantisierungsanleitung

Siehe auch