MLC-LLM

Déploiement universel de LLM via la compilation ML — exécutez n'importe quel grand modèle de langage sur n'importe quel matériel avec des performances maximales grâce à la compilation pour l'apprentissage automatique.

🌟 20 000+ étoiles sur GitHub | Maintenu par l'équipe MLC AI | Licence Apache-2.0


Qu'est-ce que MLC-LLM ?

MLC-LLM (Machine Learning Compilation for Large Language Models) est un cadre universel qui permet le déploiement efficace de grands modèles de langage sur divers backends matériels. En tirant parti de TVM (Tensor Virtual Machine) comme backend de compilation, MLC-LLM compile les modèles LLM directement en code natif pour le matériel — atteignant des performances quasi optimales sans ingénierie spécifique au matériel.

Capacités clés

  • Prise en charge universelle du matériel — NVIDIA CUDA, AMD ROCm, Apple Metal, Vulkan, WebGPU

  • API REST compatible OpenAI — remplacement direct pour les workflows existants

  • Formats de modèles multiples — Llama, Mistral, Gemma, Phi, Qwen, Falcon, et plus

  • Quantification 4-bit / 8-bit — exécutez de grands modèles sur des GPU grand public

  • Interface de discussion — interface web intégrée pour des tests immédiats

  • Outils Python & CLI — options d'intégration flexibles

Pourquoi utiliser MLC-LLM sur Clore.ai ?

La place de marché GPU de Clore.ai vous donne accès à des GPU NVIDIA haute performance à des tarifs de location compétitifs. L'approche de compilation de MLC-LLM maximise le débit de chaque GPU — ce qui le rend idéal pour :

  • Inférence d'API en production à grande échelle

  • Recherche et benchmarking sur différentes tailles de modèles

  • Service économique avec modèles quantifiés

  • Déploiement multi-modèles sur une seule instance GPU


Démarrage rapide sur Clore.ai

Étape 1 : Trouver un serveur GPU

  1. Aller à clore.aiarrow-up-right place de marché

  2. Filtrer les serveurs : GPU NVIDIA, minimum 8 Go de VRAM (16 Go+ recommandé pour les modèles 7B+)

  3. Pour des performances optimales : RTX 3090, RTX 4090, A100 ou H100

Étape 2 : Déployer MLC-LLM

circle-info

Remarque : MLC-LLM ne publie pas d'image Docker pré-construite officielle sur Docker Hub. L'approche de déploiement recommandée est d'utiliser une image de base NVIDIA CUDA et d'installer MLC-LLM via pip. Utilisez nvidia/cuda:12.1.0-devel-ubuntu22.04 comme image de base sur Clore.ai.

Utilisez une image de base NVIDIA CUDA dans la configuration de votre commande Clore.ai :

Mappages de ports :

Port du conteneur
Usage

22

Accès SSH

8000

Serveur API REST

Variables d'environnement recommandées :

Script de démarrage (exécuter après SSH) :

Étape 3 : Se connecter via SSH


Installation et configuration

Option A : Utiliser des modèles pré-compilés (le plus rapide)

MLC-AI maintient une bibliothèque de modèles pré-compilés sur Hugging Face. Aucune compilation requise :

Option B : Compiler votre propre modèle

Pour des modèles personnalisés ou des exigences spécifiques de quantification :

circle-info

Temps de compilation : La compilation d'un modèle 7B prend généralement 10 à 30 minutes lors de la première exécution. Les artefacts compilés sont mis en cache et réutilisés lors des lancements suivants.


Exécution du serveur API

Démarrer le serveur compatible OpenAI

Sortie du démarrage du serveur

Points de terminaison API disponibles

Point de terminaison
Méthode
Description

/v1/chat/completions

POST

Complétions de chat (format OpenAI)

/v1/completions

POST

Complétions de texte

/v1/models

GET

Lister les modèles disponibles

/v1/debug/dump_event_trace

GET

Débogage des performances


Exemples d'utilisation de l'API

Complétions de chat (Python)

Réponse en streaming

Exemple cURL


Modèles pré-compilés disponibles

MLC-AI fournit des modèles compilés prêts à l'emploi sur Hugging Face :

Série Llama 3

Mistral / Mixtral

Gemma

Phi

circle-check

Options de quantification

MLC-LLM prend en charge plusieurs schémas de quantification. Choisissez en fonction de votre budget VRAM :

Quantification
Bits
Qualité
VRAM (7B)
VRAM (13B)

q4f16_1

4 bits

★★★★☆

~4GB

~7 Go

q4f32_1

4 bits (accumulateur f32)

★★★★☆

~4GB

~7 Go

q8f16_1

8 bits

★★★★★

~8GB

~14GB

q0f16

16 bits (pas de quantification)

★★★★★

~14GB

~26 Go

q0f32

32 bits (pas de quantification)

★★★★★

~28 Go

~52 Go

circle-exclamation

Déploiement Multi-GPU

Pour les grands modèles (70B+) nécessitant plusieurs GPU :

Vérifiez la topologie GPU avant le déploiement :

circle-info

Meilleures performances : Le multi-GPU fonctionne mieux avec des cartes connectées NVLink (par ex. paires A100 80GB SXM). Les GPU connectés en PCIe présenteront des goulots d'étranglement sur les grands modèles.


Interface Web de chat

MLC-LLM inclut une interface web intégrée accessible une fois le serveur en fonctionnement :

Accédez à l'interface à : http://<clore-node-ip>:<api-port>


Optimisation des performances

Optimiser la taille de lot

Surveiller l'utilisation GPU

Mesurer le débit


Configuration Docker Compose

Pour un déploiement prêt pour la production sur Clore.ai utilisant une image de base NVIDIA CUDA avec MLC-LLM installé via pip :


Dépannage

Échec du téléchargement du modèle

Mémoire insuffisante (OOM)

Incompatibilité de version CUDA

triangle-exclamation

Serveur inaccessible


Recommandations GPU Clore.ai

L'approche de compilation de MLC-LLM offre un débit quasi optimal sur chaque niveau de GPU. Choisissez en fonction de la taille du modèle et du budget :

GPU
VRAM
Prix Clore.ai
Idéal pour
Débit (Llama 3 8B Q4)

RTX 3090

24 Go

~0,12 $/h

Modèles 7B–13B, service économique

~85 tok/s

RTX 4090

24 Go

~0,70 $/h

Modèles 7B–34B, service rapide

~140 tok/s

A100 40GB

40 Go

~1,20 $/h

34B–70B, API de production

~110 tok/s

A100 80GB

80 Go

~2,00 $/h

70B+, service multi-modèles

~130 tok/s

H100 SXM

80 Go

~3,50 $/h

Débit maximal, FP8

~280 tok/s

Point de départ recommandé : Le RTX 3090 à ~0,12 $/h offre le meilleur rapport prix-performance pour le service de Llama 3 8B et Mistral 7B via MLC-LLM. Les noyaux compilés extraient une utilisation presque maximale des GPU grand public.

Pour les modèles 70B (par ex. Llama 3 70B Q4) : utilisez A100 40GB (~1,20 $/h) ou deux RTX 3090 via le parallélisme tensoriel.


Ressources

Mis à jour

Ce contenu vous a-t-il été utile ?