Présentation

Exécutez de grands modèles de langage (LLM) sur les GPU CLORE.AI pour des applications d'inférence et de chat.

Outils populaires

Outil
Cas d'utilisation
Difficulté

Configuration LLM la plus simple

Débutant

Interface de type ChatGPT

Débutant

Service de production à haut débit

Moyen

Inférence GGUF efficace

Facile

Interface de chat complète

Facile

Inférence EXL2 la plus rapide

Moyen

API compatible OpenAI

Moyen

Génération structurée rapide

Moyen

Solution de serving HuggingFace

Moyen

Boîte à outils de serving MMlab

Moyen

Fork de vLLM avec fonctionnalités supplémentaires

Moyen

Compilation pour apprentissage automatique

Difficile

Proxy API unifié

Moyen

Inférence de modèles clairsemés

Difficile

Moteur d'inférence en Rust

Moyen

Guides de modèles

Derniers et meilleurs modèles

Modèle
Paramètres
Idéal pour

671B MoE

Raisonnement, code, mathématiques

671B MoE

Raisonnement avancé

À venir

DeepSeek de nouvelle génération

0,5B-72B

Multilingue, code

À venir

Dernière génération Qwen

70B

Le dernier 70B de Meta

À venir

Variantes Scout & Maverick

Modèles spécialisés

Modèle
Paramètres
Idéal pour

6,7B-33B

Génération de code

7B-34B

Complétion de code

4,7B

Chinois/Anglais rapide

À venir

Dernier de Zhipu AI

À venir

Modèle Moonshot AI

1T

LLM open-source massif

24B

Modèle Liquid AI

À venir

Modèle d'inférence rapide

Modèles efficaces

Modèle
Paramètres
Idéal pour

2B-27B

Inférence efficace

À venir

Le dernier compact de Google

14B

Petit mais capable

7B / 8x7B

Usage général

675B MoE

De qualité entreprise

À venir

Variante Mistral efficace

Recommandations GPU

Taille du modèle
GPU minimum
Recommandé

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

Guide de quantification

Format
Utilisation VRAM
Qualité
Vitesse

Q2_K

Le plus faible

Faible

Le plus rapide

Q4_K_M

Faible

Bien

Rapide

Q5_K_M

Moyen

Très bien

Moyen

Q8_0

Élevée

Excellent

Plus lent

FP16

Le plus élevé

Meilleur

Le plus lent

Voir aussi

Mis à jour

Ce contenu vous a-t-il été utile ?