Aperçu

Exécutez de grands modèles de langage (LLM) sur les GPU CLORE.AI pour des applications d'inférence et de chat.

Outils populaires

Outil
Cas d'utilisation
Difficulté

Configuration LLM la plus simple

Débutant

Interface de type ChatGPT

Débutant

Service de production à haut débit

Moyen

Inférence GGUF efficace

Facile

Interface de chat complète

Facile

Inférence EXL2 la plus rapide

Moyen

API compatible OpenAI

Moyen

Guides de modèles

Modèle
Paramètres
Idéal pour

671B MoE

Raisonnement, code, mathématiques

0,5B-72B

Multilingue, code

7B / 8x7B

Usage général

6,7B-33B

Génération de code

7B-34B

Complétion de code

2B-27B

Inférence efficace

14B

Petit mais capable

Recommandations GPU

Taille du modèle
GPU minimum
Recommandé

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

Guide de quantification

Format
Utilisation VRAM
Qualité
Vitesse

Q2_K

Le plus bas

Faible

Le plus rapide

Q4_K_M

Faible

Bon

Rapide

Q5_K_M

Moyen

Excellent

Moyen

Q8_0

Élevé

Excellent

Plus lent

FP16

Le plus élevé

Meilleur

Le plus lent

Voir aussi

Mis à jour

Ce contenu vous a-t-il été utile ?