Überblick

Führen Sie große Sprachmodelle (LLMs) auf CLORE.AI-GPUs für Inferenz- und Chat-Anwendungen aus.

Beliebte Werkzeuge

Tool
Einsatzgebiet
Schwierigkeitsgrad

Einfachste LLM-Einrichtung

Anfänger

ChatGPT-ähnliche Oberfläche

Anfänger

Durchsatzstarkes Produktions-Serving

Mittel

Effiziente GGUF-Inferenz

Einfach

Voll ausgestattete Chat-Benutzeroberfläche

Einfach

Schnellste EXL2-Inferenz

Mittel

OpenAI-kompatible API

Mittel

Modellanleitungen

Modell
Parameter
Am besten geeignet für

671B MoE

Schlussfolgern, Code, Mathematik

0,5B–72B

Mehrsprachig, Code

7B / 8x7B

Allzweck

6,7B–33B

Code-Generierung

7B–34B

Codevervollständigung

2B–27B

Effiziente Inferenz

14B

Klein, aber fähig

GPU-Empfehlungen

Modellgröße
Minimale GPU
Empfohlen

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

Quantisierungsanleitung

Format
VRAM-Nutzung
Qualität
Geschwindigkeit

Q2_K

Niedrigste

Schlecht

Am schnellsten

Q4_K_M

Gering

Gut

Schnell

Q5_K_M

Mittel

Großartig

Mittel

Q8_0

Hoch

Ausgezeichnet

Langsamer

FP16

Höchste

Am besten

Langsamste

Siehe auch

Zuletzt aktualisiert

War das hilfreich?