Présentation

Exécutez de grands modèles de langage (LLM) sur les GPU CLORE.AI pour des applications d'inférence et de chat.

Outils populaires

Outil

Cas d'utilisation

Difficulté

Ollama

Configuration LLM la plus simple

Débutant

Ouvrir WebUI

Interface de type ChatGPT

Débutant

vLLM

Service de production à haut débit

Moyen

Llama.cpp Server

Inférence GGUF efficace

Facile

Text Generation WebUI

Interface de chat complète

Facile

ExLlamaV2

Inférence EXL2 la plus rapide

Moyen

LocalAI

API compatible OpenAI

Moyen

SGLang

Génération structurée rapide

Moyen

Text Generation Inference (TGI)

Solution de serving HuggingFace

Moyen

LMDeploy

Boîte à outils de serving MMlab

Moyen

Aphrodite Engine

Fork de vLLM avec fonctionnalités supplémentaires

Moyen

MLC-LLM

Compilation pour apprentissage automatique

Difficile

LiteLLM

Proxy API unifié

Moyen

PowerInfer

Inférence de modèles clairsemés

Difficile

Mistral.rs

Moteur d'inférence en Rust

Moyen

Guides de modèles

Derniers et meilleurs modèles

Modèle

Paramètres

Idéal pour

DeepSeek-V3

671B MoE

Raisonnement, code, mathématiques

DeepSeek-R1

671B MoE

Raisonnement avancé

DeepSeek V4

À venir

DeepSeek de nouvelle génération

Qwen2.5

0,5B-72B

Multilingue, code

Qwen3.5

À venir

Dernière génération Qwen

Llama 3.3

70B

Le dernier 70B de Meta

Llama 4

À venir

Variantes Scout & Maverick

Modèles spécialisés

Modèle

Paramètres

Idéal pour

DeepSeek Coder

6,7B-33B

Génération de code

CodeLlama

7B-34B

Complétion de code

GLM-4.7-Flash

4,7B

Chinois/Anglais rapide

GLM-5

À venir

Dernier de Zhipu AI

Kimi K2.5

À venir

Modèle Moonshot AI

Ling-2.5-1T

LLM open-source massif

LFM2-24B

24B

Modèle Liquid AI

MiMo-V2-Flash

À venir

Modèle d'inférence rapide

Modèles efficaces

Modèle

Paramètres

Idéal pour

Gemma 2

2B-27B

Inférence efficace

Gemma 3

À venir

Le dernier compact de Google

Phi-4

14B

Petit mais capable

Mistral/Mixtral

7B / 8x7B

Usage général

Mistral Large 3

675B MoE

De qualité entreprise

Mistral Small 3.1

À venir

Variante Mistral efficace

Recommandations GPU

Taille du modèle

GPU minimum

Recommandé

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

Guide de quantification

Format

Utilisation VRAM

Qualité

Vitesse

Q2_K

Le plus faible

Faible

Le plus rapide

Q4_K_M

Faible

Bien

Rapide

Q5_K_M

Moyen

Très bien

Moyen

Q8_0

Élevée

Excellent

Plus lent

FP16

Le plus élevé

Meilleur

Le plus lent

Voir aussi

PrécédentDépannage SuivantOllama

Mis à jour il y a 7 jours

Ce contenu vous a-t-il été utile ?

hashtagOutils populaires

hashtagGuides de modèles

hashtagDerniers et meilleurs modèles

hashtagModèles spécialisés

hashtagModèles efficaces

hashtagRecommandations GPU

hashtagGuide de quantification

hashtagVoir aussi

Outils populaires

Guides de modèles

Derniers et meilleurs modèles

Modèles spécialisés

Modèles efficaces

Recommandations GPU

Guide de quantification

Voir aussi