Mistral & Mixtral

Führen Sie Mistral- und Mixtral-Modelle auf Clore.ai GPUs aus

circle-info

Neuere Versionen verfügbar! Schau dir an Mistral Small 3.1 (24B, Apache 2.0, passt auf RTX 4090) und Mistral Large 3 (675B MoE, frontier‑Klasse).

Führe Mistral- und Mixtral-Modelle für hochwertige Textgenerierung aus.

circle-check

Mieten auf CLORE.AI

  1. Nach GPU-Typ, VRAM und Preis filtern

  2. Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)

  3. Konfigurieren Sie Ihre Bestellung:

    • Docker-Image auswählen

    • Ports festlegen (TCP für SSH, HTTP für Web-UIs)

    • Umgebungsvariablen bei Bedarf hinzufügen

    • Startbefehl eingeben

  4. Zahlung auswählen: CLORE, BTC, oder USDT/USDC

  5. Bestellung erstellen und auf Bereitstellung warten

Zugriff auf Ihren Server

  • Verbindungsdetails finden Sie in Meine Bestellungen

  • Webschnittstellen: Verwenden Sie die HTTP-Port-URL

  • SSH: ssh -p <port> root@<proxy-address>

Modellübersicht

Modell
Parameter
VRAM
Spezialgebiet

Mistral-7B

7B

8GB

Allzweck

Mistral-7B-Instruct

7B

8GB

Chat/Anweisung

Mixtral-8x7B

46,7B (12,9B aktiv)

24GB

MoE, beste Qualität

Mixtral-8x22B

141B

80GB+

Größtes MoE

Schnelle Bereitstellung

Docker-Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Installationsoptionen

Mit Ollama (am einfachsten)

Mit vLLM

Verwendung von Transformers

Mistral-7B mit Transformers

Mixtral-8x7B

Quantisierte Modelle (geringerer VRAM)

4-Bit-Quantisierung

GGUF mit llama.cpp

vLLM-Server (Produktion)

OpenAI‑kompatible API

Streaming

Funktionsaufrufe

Mistral unterstützt Funktionsaufrufe:

Gradio-Oberfläche

Leistungsvergleich

Durchsatz (Tokens/Sek)

Modell
RTX 3060
RTX 3090
RTX 4090
A100 40GB

Mistral-7B FP16

45

80

120

150

Mistral-7B Q4

70

110

160

200

Mixtral-8x7B FP16

-

-

30

60

Mixtral-8x7B Q4

-

25

50

80

Mixtral-8x22B Q4

-

-

-

25

Zeit bis zum ersten Token (TTFT)

Modell
RTX 3090
RTX 4090
A100

Mistral-7B

80ms

50ms

35ms

Mixtral-8x7B

-

150ms

90ms

Mixtral-8x22B

-

-

200ms

Kontextlänge vs. VRAM (Mistral-7B)

Kontext
FP16
Q8
Q4

4K

15GB

9GB

5GB

8K

18GB

11GB

7GB

16K

24GB

15GB

9GB

32K

36GB

22GB

14GB

VRAM-Anforderungen

Modell
FP16
8‑bit
4‑bit

Mistral-7B

14GB

8GB

5GB

Mixtral-8x7B

90GB

45GB

24GB

Mixtral-8x22B

180GB

90GB

48GB

Anwendungsfälle

Codegenerierung

Datenanalyse

Kreatives Schreiben

Fehlerbehebung

Kein Speicher mehr

  • Verwende 4‑Bit‑Quantisierung

  • Verwende Mistral-7B anstelle von Mixtral

  • Reduziere max_model_len

Langsame Generierung

  • Verwende vLLM für Produktion

  • Aktiviere Flash‑Attention

  • Verwende Tensorparallelität für Multi‑GPU

Schlechte Ausgabequalität

  • Passe die Temperatur an (0.1–0.9)

  • Verwende die Instruct‑Variante

  • Bessere System‑Prompts

Kostenabschätzung

Typische CLORE.AI-Marktplatztarife (Stand 2024):

GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)

  • Bezahlen mit CLORE Token

  • Preise bei verschiedenen Anbietern vergleichen

Nächste Schritte

  • vLLM - Produktionsbereitstellung

  • Ollama - Einfache Bereitstellung

  • DeepSeek-V3 - Bestes Modell für Schlussfolgerungen

  • Qwen2.5 - Mehrsprachige Alternative

Zuletzt aktualisiert

War das hilfreich?