Übersicht

Führen Sie große Sprachmodelle (LLMs) auf CLORE.AI-GPUs für Inferenz- und Chat-Anwendungen aus.

Beliebte Tools

Werkzeug
Anwendungsfall
Schwierigkeit

Einfachste LLM-Einrichtung

Anfänger

ChatGPT-ähnliche Oberfläche

Anfänger

Durchsatzstarke Produktionsbereitstellung

Mittel

Effiziente GGUF-Inferenz

Einfach

Voll ausgestattete Chat-Oberfläche

Einfach

Schnellste EXL2-Inferenz

Mittel

OpenAI-kompatible API

Mittel

Schnelle strukturierte Generierung

Mittel

HuggingFace-Serving-Lösung

Mittel

MMlab-Serving-Toolkit

Mittel

vLLM-Fork mit zusätzlichen Funktionen

Mittel

Maschinelles Lernkompilieren

Schwierig

Vereinheitlichter API-Proxy

Mittel

Sparsame Modellinferenz

Schwierig

Rust-basierte Inferenz-Engine

Mittel

Modellanleitungen

Neueste & beste Modelle

Modell
Parameter
Am besten für

671B MoE

Schlussfolgern, Code, Mathematik

671B MoE

Fortgeschrittenes Schlussfolgern

Wird bekanntgegeben

Nächste Generation von DeepSeek

0,5B–72B

Mehrsprachig, Code

Wird bekanntgegeben

Neueste Qwen-Generation

70B

Metas neuestes 70B

Wird bekanntgegeben

Scout- & Maverick-Varianten

Spezialisierte Modelle

Modell
Parameter
Am besten für

6,7B–33B

Code-Generierung

7B–34B

Codevervollständigung

4,7B

Schnell Chinesisch/Englisch

Wird bekanntgegeben

Zhipu AI neuestes

Wird bekanntgegeben

Moonshot AI-Modell

1T

Massives Open-Source-LLM

24B

Liquid-AI-Modell

Wird bekanntgegeben

Schnelles Inferenzmodell

Effiziente Modelle

Modell
Parameter
Am besten für

2B–27B

Effiziente Inferenz

Wird bekanntgegeben

Googles neuestes kompaktes Modell

14B

Klein, aber leistungsfähig

7B / 8x7B

Allzweck

675B MoE

Unternehmensklasse

Wird bekanntgegeben

Effiziente Mistral-Variante

GPU-Empfehlungen

Modellgröße
Mindest-GPU
Empfohlen

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

Quantisierungsanleitung

Format
VRAM-Nutzung
Qualität
Geschwindigkeit

Q2_K

Am niedrigsten

Schlecht

Am schnellsten

Q4_K_M

Niedrig

Gut

Schnell

Q5_K_M

Mittel

Großartig

Mittel

Q8_0

Hoch

Ausgezeichnet

Langsamer

FP16

Am höchsten

Am besten

Am langsamsten

Siehe auch

Zuletzt aktualisiert

War das hilfreich?