MLC-LLM
Was ist MLC-LLM?
Wesentliche Fähigkeiten
Warum MLC-LLM auf Clore.ai verwenden?
Schnellstart auf Clore.ai
Schritt 1: Finden Sie einen GPU-Server
Schritt 2: MLC-LLM bereitstellen
Container-Port
Zweck
Schritt 3: Verbindung per SSH herstellen
Installation & Einrichtung
Option A: Verwenden Sie vorkompilierte Modelle (am schnellsten)
Option B: Kompilieren Sie Ihr eigenes Modell
Den API-Server betreiben
Starten Sie den OpenAI-kompatiblen Server
Server-Startausgabe
Verfügbare API-Endpunkte
Endpunkt
Methode
Beschreibung
API-Nutzungsbeispiele
Chat-Completions (Python)
Streaming-Antwort
cURL-Beispiel
Verfügbare vorkompilierte Modelle
Llama 3-Serie
Mistral / Mixtral
Gemma
Phi
Quantisierungsoptionen
Quantisierung
Bits
Qualität
VRAM (7B)
VRAM (13B)
Multi-GPU-Bereitstellung
Web-Chat-Oberfläche
Performance-Tuning
Optimieren Sie die Batch-Größe
Überwachen Sie die GPU-Auslastung
Benchmark-Durchsatz
Docker-Compose-Setup
Fehlerbehebung
Modell-Download schlägt fehl
Nicht genügend Speicher (OOM)
CUDA-Version stimmt nicht überein
Server nicht erreichbar
Clore.ai GPU-Empfehlungen
GPU
VRAM
Clore.ai-Preis
Am besten für
Durchsatz (Llama 3 8B Q4)
Ressourcen
Zuletzt aktualisiert
War das hilfreich?