MLC-LLM

Universelle LLM-Bereitstellung durch ML-Kompilierung — Führen Sie jedes große Sprachmodell auf jeder Hardware mit maximaler Leistung mithilfe von Machine-Learning-Kompilierung aus.

🌟 20.000+ GitHub-Sterne | Wird vom MLC AI Team gewartet | Apache-2.0-Lizenz


Was ist MLC-LLM?

MLC-LLM (Machine Learning Compilation for Large Language Models) ist ein universelles Framework, das die effiziente Bereitstellung großer Sprachmodelle über verschiedene Hardware-Backends ermöglicht. Durch die Nutzung von TVM (Tensor Virtual Machine) als Kompilierungs-Backend kompiliert MLC-LLM LLM-Modelle direkt in nativen Hardware-Code — und erreicht dabei nahezu optimale Leistung ohne hardware-spezifische Entwicklung.

Wesentliche Fähigkeiten

  • Universelle Hardware-Unterstützung — NVIDIA CUDA, AMD ROCm, Apple Metal, Vulkan, WebGPU

  • OpenAI-kompatible REST-API — Drop-in-Ersatz für bestehende Workflows

  • Mehrere Modellformate — Llama, Mistral, Gemma, Phi, Qwen, Falcon und mehr

  • 4-Bit- / 8-Bit-Quantisierung — Führen Sie große Modelle auf Consumer-GPUs aus

  • Chat-Oberfläche — Eingebaute Web-UI für sofortige Tests

  • Python- & CLI-Tools — Flexible Integrationsmöglichkeiten

Warum MLC-LLM auf Clore.ai verwenden?

Der Clore.ai GPU-Marktplatz bietet Zugriff auf leistungsstarke NVIDIA-GPUs zu wettbewerbsfähigen Mietpreisen. Der Kompilierungsansatz von MLC-LLM maximiert den Durchsatz jeder GPU — ideal für:

  • Produktive API-Inferenz in großem Maßstab

  • Forschung und Benchmarking über Modellgrößen hinweg

  • Kosteneffizientes Serving mit quantisierten Modellen

  • Bereitstellung mehrerer Modelle auf einer einzigen GPU-Instanz


Schnellstart auf Clore.ai

Schritt 1: Finden Sie einen GPU-Server

  1. Gehe zu clore.aiarrow-up-right Marktplatz

  2. Server filtern: NVIDIA GPU, Mindest- 8 GB VRAM (16 GB+ empfohlen für 7B+ Modelle)

  3. Für optimale Leistung: RTX 3090, RTX 4090, A100 oder H100

Schritt 2: MLC-LLM bereitstellen

circle-info

Hinweis: MLC-LLM veröffentlicht kein offizielles vorkompiliertes Docker-Image auf Docker Hub. Der empfohlene Bereitstellungsansatz besteht darin, ein NVIDIA CUDA-Basisimage zu verwenden und MLC-LLM über pip zu installieren. Verwenden Sie nvidia/cuda:12.1.0-devel-ubuntu22.04 als Ihr Basisimage auf Clore.ai.

Verwenden Sie ein NVIDIA CUDA-Basisimage in Ihrer Clore.ai-Bestellkonfiguration:

Port-Mappings:

Container-Port
Zweck

22

SSH-Zugriff

8000

REST-API-Server

Empfohlene Umgebungsvariablen:

Startskript (nach SSH ausführen):

Schritt 3: Verbindung per SSH herstellen


Installation & Einrichtung

Option A: Verwenden Sie vorkompilierte Modelle (am schnellsten)

MLC-AI pflegt eine Bibliothek vorkompilierter Modelle auf Hugging Face. Keine Kompilierung erforderlich:

Option B: Kompilieren Sie Ihr eigenes Modell

Für benutzerdefinierte Modelle oder spezifische Quantisierungsanforderungen:

circle-info

Kompilierungszeit: Das Kompilieren eines 7B-Modells dauert typischerweise beim ersten Lauf 10–30 Minuten. Kompilierte Artefakte werden zwischengespeichert und bei nachfolgenden Starts wiederverwendet.


Den API-Server betreiben

Starten Sie den OpenAI-kompatiblen Server

Server-Startausgabe

Verfügbare API-Endpunkte

Endpunkt
Methode
Beschreibung

/v1/chat/completions

POST

Chat-Completions (OpenAI-Format)

/v1/completions

POST

Textvervollständigungen

/v1/models

GET

Liste verfügbarer Modelle

/v1/debug/dump_event_trace

GET

Performance-Debugging


API-Nutzungsbeispiele

Chat-Completions (Python)

Streaming-Antwort

cURL-Beispiel


Verfügbare vorkompilierte Modelle

MLC-AI stellt gebrauchsfertige kompilierte Modelle auf Hugging Face bereit:

Llama 3-Serie

Mistral / Mixtral

Gemma

Phi

circle-check

Quantisierungsoptionen

MLC-LLM unterstützt mehrere Quantisierungsschemata. Wählen Sie entsprechend Ihrem VRAM-Budget:

Quantisierung
Bits
Qualität
VRAM (7B)
VRAM (13B)

q4f16_1

4-Bit

★★★★☆

~4GB

~7GB

q4f32_1

4-Bit (f32 Akkumulation)

★★★★☆

~4GB

~7GB

q8f16_1

8-Bit

★★★★★

~8GB

~14GB

q0f16

16-Bit (keine Quantisierung)

★★★★★

~14GB

~26GB

q0f32

32-Bit (keine Quantisierung)

★★★★★

~28GB

~52GB

circle-exclamation

Multi-GPU-Bereitstellung

Für große Modelle (70B+), die mehrere GPUs erfordern:

Überprüfen Sie die GPU-Topologie vor der Bereitstellung:

circle-info

Beste Leistung: Multi-GPU funktioniert am besten mit NVLink-verbundenen Karten (z. B. A100 80GB SXM-Paare). PCIe-verbundene GPUs zeigen bei großen Modellen Engpässe.


Web-Chat-Oberfläche

MLC-LLM enthält eine eingebaute Web-UI, die zugänglich ist, sobald der Server läuft:

Greifen Sie auf die UI zu unter: http://<clore-node-ip>:<api-port>


Performance-Tuning

Optimieren Sie die Batch-Größe

Überwachen Sie die GPU-Auslastung

Benchmark-Durchsatz


Docker-Compose-Setup

Für eine produktionsbereite Bereitstellung auf Clore.ai unter Verwendung eines NVIDIA CUDA-Basisimages mit über pip installiertem MLC-LLM:


Fehlerbehebung

Modell-Download schlägt fehl

Nicht genügend Speicher (OOM)

CUDA-Version stimmt nicht überein

triangle-exclamation

Server nicht erreichbar


Clore.ai GPU-Empfehlungen

Der Kompilierungsansatz von MLC-LLM liefert nahezu optimalen Durchsatz auf jeder GPU-Klasse. Wählen Sie entsprechend Modellgröße und Budget:

GPU
VRAM
Clore.ai-Preis
Am besten für
Durchsatz (Llama 3 8B Q4)

RTX 3090

24 GB

~$0.12/Stunde

7B–13B Modelle, budgetorientiertes Serving

~85 tok/s

RTX 4090

24 GB

~$0.70/Stunde

7B–34B Modelle, schnelles Serving

~140 tok/s

A100 40GB

40 GB

~$1.20/Stunde

34B–70B, Produktions-API

~110 tok/s

A100 80GB

80 GB

~$2.00/Stunde

70B+, Multi-Model-Serving

~130 tok/s

H100 SXM

80 GB

~$3.50/Stunde

Maximaler Durchsatz, FP8

~280 tok/s

Empfohlener Ausgangspunkt: Die RTX 3090 zu etwa ~$0.12/Stunde bietet das beste Preis-Leistungs-Verhältnis für Llama 3 8B und Mistral 7B-Serving via MLC-LLM. Die kompilierten Kernel entziehen Consumer-GPUs nahezu maximale Auslastung.

Für 70B-Modelle (z. B. Llama 3 70B Q4): verwenden Sie A100 40GB (~$1.20/Stunde) oder zwei RTX 3090s über Tensor-Parallelismus.


Ressourcen

Zuletzt aktualisiert

War das hilfreich?