Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)
Konfigurieren Sie Ihre Bestellung:
Docker-Image auswählen
Ports festlegen (TCP für SSH, HTTP für Web-UIs)
Umgebungsvariablen bei Bedarf hinzufügen
Startbefehl eingeben
Zahlung auswählen: CLORE, BTC, oder USDT/USDC
Bestellung erstellen und auf Bereitstellung warten
Zugriff auf Ihren Server
Verbindungsdetails finden Sie in Meine Bestellungen
Webschnittstellen: Verwenden Sie die HTTP-Port-URL
SSH: ssh -p <port> root@<proxy-address>
Was ist LoRA/QLoRA?
LoRA (Low-Rank Adaptation) - Trainieren Sie kleine Adapterlayer statt des gesamten Modells
QLoRA - LoRA mit Quantisierung für noch weniger VRAM
Trainieren Sie ein 7B-Modell auf einer einzelnen RTX 3090
Trainieren Sie ein 70B-Modell auf einer einzelnen A100
Anforderungen
Modell
Methode
Min. VRAM
Empfohlen
7B
QLoRA
12GB
RTX 3090
13B
QLoRA
20GB
RTX 4090
70B
QLoRA
48GB
A100 80GB
7B
Vollständiges LoRA
24GB
RTX 4090
Schnelle Bereitstellung
Docker-Image:
Ports:
Befehl:
Zugriff auf Ihren Dienst
Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:
Gehen Sie zur Meine Bestellungen Seite
Klicken Sie auf Ihre Bestellung
Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)
Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.
Datensatzvorbereitung
Chat-Format (empfohlen)
Instruktions-Format
Alpaca-Format
Unterstützte moderne Modelle (2025)
Modell
HF-ID
Min. VRAM (QLoRA)
Llama 3.1 / 3.3 8B
meta-llama/Llama-3.1-8B-Instruct
12GB
Qwen 2.5 7B / 14B
Qwen/Qwen2.5-7B-Instruct
12GB / 20GB
DeepSeek-R1-Distill (7B/8B)
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
12GB
Mistral 7B v0.3
mistralai/Mistral-7B-Instruct-v0.3
12GB
Gemma 2 9B
google/gemma-2-9b-it
14GB
Phi-4 14B
microsoft/phi-4
20GB
QLoRA Fine-Tuning-Skript
Modernes Beispiel mit PEFT 0.14+, Flash Attention 2, DoRA-Unterstützung und Qwen2.5 / DeepSeek-R1-Kompatibilität:
Flash Attention 2
Flash Attention 2 reduziert den VRAM-Verbrauch und beschleunigt das Training erheblich. Erfordert Ampere+-GPU (RTX 3090, RTX 4090, A100).
Einstellung
VRAM (7B)
Geschwindigkeit
Standard-Attention (fp16)
~22GB
Baseline
Flash Attention 2 (bf16)
~16GB
+30%
Flash Attention 2 + QLoRA
~12GB
+30%
DoRA (Weight-Decomposed LoRA)
DoRA (PEFT >= 0.14) zerlegt vortrainierte Gewichte in Betrag- und Richtungs-Komponenten. Es verbessert die Fine-Tuning-Qualität, insbesondere bei kleineren Rängen.
Qwen2.5- & DeepSeek-R1-Distill-Beispiele
Qwen2.5 Fine-Tuning
DeepSeek-R1-Distill Fine-Tuning
DeepSeek-R1-Distill-Modelle (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) sind auf Schlussfolgern ausgerichtet. Fine-Tunen Sie sie, um ihren Chain-of-Thought-Stil an Ihre Domäne anzupassen.
Verwendung von Axolotl (einfacher)
Axolotl vereinfacht Fine-Tuning mit YAML-Konfigurationen:
Axolotl Konfigurationsbeispiele
Chat-Modell
Code-Modell
LoRA-Gewichte zusammenführen
Nach dem Training LoRA wieder in das Basismodell zusammenführen:
In GGUF konvertieren
Zur Verwendung mit llama.cpp/Ollama:
Überwachung des Trainings
Weights & Biases
TensorBoard
Best Practices
Hyperparameter
Parameter
7B-Modell
13B-Modell
70B-Modell
batch_size
4
2
1
grad_accum
4
8
16
lr
2e-4
1e-4
5e-5
lora_r
64
32
16
Epochen
3
2-3
1-2
Datensatzgröße
Minimum: 1.000 Beispiele
Gut: 10.000+ Beispiele
Qualität > Quantität
Vermeidung von Überanpassung
Multi-GPU-Training
DeepSpeed-Konfiguration:
Speichern & Exportieren
Fehlerbehebung
OOM-Fehler
Batch-Größe reduzieren
Erhöhen Sie die Gradient Accumulation
Verwenden Sie gradient_checkpointing=True
Reduzieren Sie lora_r
Trainingsverlust fällt nicht
Überprüfen Sie das Datenformat
Erhöhen Sie die Lernrate
Prüfen Sie auf Datenprobleme
NaN-Verlust
Verringern Sie die Lernrate
Verwenden Sie fp32 statt fp16
Überprüfen Sie auf beschädigte Daten
Kostenabschätzung
Typische CLORE.AI-Marktplatztarife (Stand 2024):
GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung
RTX 3060
~$0.03
~$0.70
~$0.12
RTX 3090
~$0.06
~$1.50
~$0.25
RTX 4090
~$0.10
~$2.30
~$0.40
A100 40GB
~$0.17
~$4.00
~$0.70
A100 80GB
~$0.25
~$6.00
~$1.00
Preise variieren je nach Anbieter und Nachfrage. Prüfen SieCLORE.AI Marketplaceauf aktuelle Preise.
Geld sparen:
Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)
# In das Laden des Modells aktivieren:
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
attn_implementation="flash_attention_2", # <-- hinzufügen
torch_dtype=torch.bfloat16, # FA2 erfordert bf16 oder fp16
device_map="auto",
)
from peft import LoraConfig
# Standard-LoRA
lora_config = LoraConfig(r=64, lora_alpha=16, use_dora=False, ...)
# DoRA — gleiche Parameter, bessere Qualität
lora_config = LoraConfig(r=64, lora_alpha=16, use_dora=True, ...)
# Hinweis: DoRA fügt ca. 5–10% VRAM-Overhead gegenüber Standard-LoRA hinzu
# Hinweis: Nicht in allen Fällen mit quantisierten (4-Bit/8-Bit) Modellen kompatibel
MODEL_NAME = "Qwen/Qwen2.5-7B-Instruct"
# Für 14B: "Qwen/Qwen2.5-14B-Instruct" (benötigt 20GB+ VRAM mit QLoRA)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True, # Erforderlich für Qwen2.5
attn_implementation="flash_attention_2",
)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
# Qwen2.5 verwendet ChatML-Format — verwenden Sie apply_chat_template
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"},
{"role": "assistant", "content": "Hi there! How can I help?"},
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
# DeepSeek-R1-Dist Varianten
MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B" # 7B auf Qwen2.5-Basis
# MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B" # 8B auf Llama3-Basis
# MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B" # 14B (benötigt A100)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True,
attn_implementation="flash_attention_2",
)
# DeepSeek-R1 verwendet <think>...</think>-Tags für das Denken/Schlussfolgern
# Behalten Sie dies in den Trainingsdaten, um die Chain-of-Thought-Fähigkeit zu erhalten
example_format = """<|im_start|>user
Solve: What is 15 * 23?<|im_end|>
<|im_start|>assistant
<think>
15 * 23 = 15 * 20 + 15 * 3 = 300 + 45 = 345
</think>
The answer is 345.<|im_end|>"""
# LoRA-Zielmodule für DeepSeek-R1-Distill (Qwen2.5-Basis)
lora_config = LoraConfig(
r=32,
lora_alpha=16,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj"],
use_dora=True,
task_type="CAUSAL_LM",
)