Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)
Konfigurieren Sie Ihre Bestellung:
Docker-Image auswählen
Ports festlegen (TCP für SSH, HTTP für Web-UIs)
Gegebenenfalls Umgebungsvariablen hinzufügen
Startbefehl eingeben
Zahlung auswählen: CLORE, BTC, oder USDT/USDC
Bestellung erstellen und auf Bereitstellung warten
Greifen Sie auf Ihren Server zu
Verbindungsdetails finden in Meine Bestellungen
Webschnittstellen: Verwenden Sie die HTTP-Port-URL
SSH: ssh -p <port> root@<proxy-address>
Was ist LoRA/QLoRA?
LoRA (Low-Rank Adaptation) - Trainieren Sie kleine Adapter-Schichten statt des gesamten Modells
QLoRA - LoRA mit Quantisierung für noch weniger VRAM
Trainieren Sie ein 7B-Modell auf einer einzelnen RTX 3090
Trainieren Sie ein 70B-Modell auf einer einzelnen A100
Anforderungen
Modell
Methode
Min. VRAM
Empfohlen
7B
QLoRA
12GB
RTX 3090
13B
QLoRA
20GB
RTX 4090
70B
QLoRA
48GB
A100 80GB
7B
Volles LoRA
24GB
RTX 4090
Schnelle Bereitstellung
Docker-Image:
Ports:
Befehl:
Zugriff auf Ihren Dienst
Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:
Gehen Sie zur Meine Bestellungen Seite
Klicken Sie auf Ihre Bestellung
Finden Sie die http_pub URL (z. B. abc123.clorecloud.net)
Verwenden Sie https://YOUR_HTTP_PUB_URL anstatt localhost in den Beispielen unten.
Datensatzvorbereitung
Chat-Format (empfohlen)
Instruktionsformat
Alpaca-Format
Unterstützte moderne Modelle (2025)
Modell
HF-ID
Min. VRAM (QLoRA)
Llama 3.1 / 3.3 8B
meta-llama/Llama-3.1-8B-Instruct
12GB
Qwen 2.5 7B / 14B
Qwen/Qwen2.5-7B-Instruct
12GB / 20GB
DeepSeek-R1-Distill (7B/8B)
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
12GB
Mistral 7B v0.3
mistralai/Mistral-7B-Instruct-v0.3
12GB
Gemma 2 9B
google/gemma-2-9b-it
14GB
Phi-4 14B
microsoft/phi-4
20GB
QLoRA Fine-Tuning-Skript
Modernes Beispiel mit PEFT 0.14+, Flash Attention 2, DoRA-Unterstützung und Qwen2.5 / DeepSeek-R1-Kompatibilität:
Flash Attention 2
Flash Attention 2 reduziert den VRAM-Verbrauch und beschleunigt das Training deutlich. Erfordert Ampere+ GPU (RTX 3090, RTX 4090, A100).
Einstellung
VRAM (7B)
Geschwindigkeit
Standard-Attention (fp16)
~22GB
Basislinie
Flash Attention 2 (bf16)
~16GB
+30%
Flash Attention 2 + QLoRA
~12GB
+30%
DoRA (Weight-Decomposed LoRA)
DoRA (PEFT >= 0.14) zerlegt vortrainierte Gewichte in Betrag- und Richtungs-Komponenten. Es verbessert die Fine-Tuning-Qualität, besonders bei kleineren Rängen.
Beispiele für Qwen2.5 & DeepSeek-R1-Distill
Qwen2.5 Fine-Tuning
DeepSeek-R1-Distill Fine-Tuning
DeepSeek-R1-Distill-Modelle (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) sind auf Reasoning ausgerichtet. Feinabstimmung, um ihren Chain-of-Thought-Stil an Ihre Domäne anzupassen.
Verwendung von Axolotl (einfacher)
Axolotl vereinfacht das Fine-Tuning mit YAML-Konfigurationen:
Axolotl Config-Beispiele
Chat-Modell
Code-Modell
LoRA-Gewichte zusammenführen
Nach dem Training LoRA zurück in das Basismodell mergen:
In GGUF konvertieren
Zur Verwendung mit llama.cpp/Ollama:
Training überwachen
Weights & Biases
TensorBoard
Best Practices
Hyperparameter
Parameter
7B-Modell
13B-Modell
70B-Modell
batch_size
4
2
1
grad_accum
4
8
16
lr
2e-4
1e-4
5e-5
lora_r
64
32
16
Epochen
3
2-3
1-2
Datensatzgröße
Minimum: 1.000 Beispiele
Gut: 10.000+ Beispiele
Qualität > Quantität
Überanpassung vermeiden
Multi-GPU-Training
DeepSpeed-Konfiguration:
Speichern & Exportieren
Fehlerbehebung
OOM-Fehler
Batch-Größe reduzieren
Gradient Accumulation erhöhen
Verwenden Sie gradient_checkpointing=True
lora_r reduzieren
Trainingsverlust sinkt nicht
Datenformat überprüfen
Lernrate erhöhen
Auf Datenprobleme prüfen
NaN-Verlust
Lernrate reduzieren
fp32 statt fp16 verwenden
Auf korrupte Daten prüfen
Kostenabschätzung
Typische CLORE.AI-Marktplatzpreise (Stand 2024):
GPU
Stundenpreis
Tagespreis
4-Stunden-Sitzung
RTX 3060
~$0.03
~$0.70
~$0.12
RTX 3090
~$0.06
~$1.50
~$0.25
RTX 4090
~$0.10
~$2.30
~$0.40
A100 40GB
~$0.17
~$4.00
~$0.70
A100 80GB
~$0.25
~$6.00
~$1.00
Preise variieren je nach Anbieter und Nachfrage. PrüfenCLORE.AI Marketplacefür aktuelle Preise.