Text Generation WebUI

Führen Sie text-generation-webui für LLM-Inferenz auf Clore.ai GPUs aus

Führen Sie die beliebteste LLM-Oberfläche mit Unterstützung für alle Modellformate aus.

circle-check

Mieten auf CLORE.AI

  1. Nach GPU-Typ, VRAM und Preis filtern

  2. Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)

  3. Konfigurieren Sie Ihre Bestellung:

    • Docker-Image auswählen

    • Ports festlegen (TCP für SSH, HTTP für Web-UIs)

    • Umgebungsvariablen bei Bedarf hinzufügen

    • Startbefehl eingeben

  4. Zahlung auswählen: CLORE, BTC, oder USDT/USDC

  5. Bestellung erstellen und auf Bereitstellung warten

Zugriff auf Ihren Server

  • Verbindungsdetails finden Sie in Meine Bestellungen

  • Webschnittstellen: Verwenden Sie die HTTP-Port-URL

  • SSH: ssh -p <port> root@<proxy-address>

Warum Text Generation WebUI?

  • Unterstützt GGUF, GPTQ, AWQ, EXL2, HF-Formate

  • Eingebaute Chat-, Notebook- und API-Modi

  • Erweiterungen: Stimme, Charaktere, multimodal

  • Unterstützung für Fine-Tuning

  • Modellwechsel unterwegs

Anforderungen

Modellgröße
Min. VRAM
Empfohlen

7B (Q4)

6GB

RTX 3060

13B (Q4)

10GB

RTX 3080

30B (Q4)

20GB

RTX 4090

70B (Q4)

40GB

A100

Schnelle Bereitstellung

Docker-Image:

Ports:

Umgebung:

Manuelle Installation

Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

WebUI aufrufen

  1. Warten Sie auf die Bereitstellung

  2. Finden Sie die Port-7860-Zuordnung in Meine Bestellungen

  3. Öffnen: http://<proxy>:<port>

Modelle herunterladen

Von HuggingFace (im WebUI)

  1. Gehen Sie zur Modell Tab

  2. Modellname eingeben: bartowski/Meta-Llama-3.1-8B-Instruct-GGUF

  3. Klicken Herunterladen

Über die Befehlszeile

Empfohlene Modelle

Für Chat:

Für Coding:

Für Rollenspiel:

Modelle laden

GGUF (Empfohlen für die meisten Benutzer)

  1. Modell Tab → Modellordner auswählen

  2. Modell-Loader: llama.cpp

  3. Setze n-gpu-layers:

    • RTX 3090: 35-40

    • RTX 4090: 45-50

    • A100: 80+

  4. Klicken Laden

GPTQ (Schnell, quantisiert)

  1. GPTQ-Modell herunterladen

  2. Modell-Loader: ExLlama_HF oder AutoGPTQ

  3. Modell laden

EXL2 (Beste Geschwindigkeit)

  1. EXL2-Modell herunterladen

  2. Modell-Loader: ExLlamav2_HF

  3. Laden

Chat-Konfiguration

Charaktereinrichtung

  1. Gehen Sie zur ParameterCharakter

  2. Charakterkarte erstellen oder laden

  3. Festlegen:

    • Name

    • Kontext/Persona

    • Beispieldialog

Instruct-Modus

Für instruction-tuned Modelle:

  1. ParameterInstruktionsvorlage

  2. Vorlage auswählen, die zu Ihrem Modell passt:

    • Llama-2-chat

    • Mistral

    • ChatML

    • Alpaca

API-Nutzung

API aktivieren

Beginnen Sie mit --api flag (Standardport 5000)

OpenAI-kompatible API

Native API

Erweiterungen

Erweiterungen installieren

Erweiterungen aktivieren

  1. Sitzung Tab → Erweiterungen

  2. Kontrollkästchen für gewünschte Erweiterungen markieren

  3. Klicken Anwenden und neu starten

Beliebte Erweiterungen

Erweiterung
Zweck

silero_tts

Sprachausgabe

whisper_stt

Spracheingabe

superbooga

Dokumenten-Q&A

sd_api_pictures

Bildgenerierung

multimodal

Bildverständnis

Performance-Tuning

GGUF-Einstellungen

Speicheroptimierung

Bei begrenztem VRAM:

Geschwindigkeitsoptimierung

Feinabstimmung (LoRA)

Training-Tab

  1. Gehen Sie zur Training Tab

  2. Basis-Modell laden

  3. Datensatz hochladen (JSON-Format)

  4. Konfigurieren:

    • LoRA-Rang: 8-32

    • Lernrate: 1e-4

    • Epochen: 3-5

  5. Training starten

Datensatzformat

Ihre Arbeit speichern

Fehlerbehebung

Modell lädt nicht

  • VRAM-Auslastung prüfen: nvidia-smi

  • Reduzieren n_gpu_layers

  • Verwenden Sie kleinere Quantisierung (Q4_K_M → Q4_K_S)

Langsame Generierung

  • Erhöhen Sie n_gpu_layers

  • Verwenden Sie EXL2 statt GGUF

  • Aktivieren Sie --no-mmap

triangle-exclamation

Während der Generierung - Reduzieren Sie `n_ctx` (Kontextlänge) - Verwenden Sie `--n-gpu-layers 0` für CPU-only - Versuchen Sie ein kleineres Modell

Kostenabschätzung

Typische CLORE.AI-Marktplatztarife (Stand 2024):

GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)

  • Bezahlen mit CLORE Token

  • Preise bei verschiedenen Anbietern vergleichen

Zuletzt aktualisiert

War das hilfreich?