Text Generation WebUI

Ejecuta text-generation-webui para inferencia LLM en GPUs de Clore.ai

Ejecuta la interfaz de LLM más popular con soporte para todos los formatos de modelo.

circle-check

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Por qué Text Generation WebUI?

  • Admite formatos GGUF, GPTQ, AWQ, EXL2, HF

  • Modos integrados: chat, cuaderno y API

  • Extensiones: voz, personajes, multimodal

  • Soporte para fine-tuning

  • Cambio de modelo sobre la marcha

Requisitos

Tamaño del modelo
VRAM mínima
Recomendado

7B (Q4)

6GB

RTX 3060

13B (Q4)

10GB

RTX 3080

30B (Q4)

20GB

RTX 4090

70B (Q4)

40GB

A100

Despliegue rápido

Imagen Docker:

Puertos:

Entorno:

Instalación manual

Imagen:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Acceder a WebUI

  1. Esperar a que se despliegue

  2. Buscar el mapeo del puerto 7860 en Mis Pedidos

  3. Abrir: http://<proxy>:<port>

Descargar modelos

Desde HuggingFace (en WebUI)

  1. Ir a Modelo pestaña

  2. Ingrese el nombre del modelo: bartowski/Meta-Llama-3.1-8B-Instruct-GGUF

  3. Hacer clic Descargar

Vía línea de comandos

Modelos recomendados

Para chat:

Para programación:

Para juegos de roles:

Cargando modelos

GGUF (Recomendado para la mayoría de los usuarios)

  1. Modelo pestaña → Seleccionar carpeta del modelo

  2. Cargador de modelos: llama.cpp

  3. Establecer n-gpu-layers:

    • RTX 3090: 35-40

    • RTX 4090: 45-50

    • A100: 80+

  4. Hacer clic Cargar

GPTQ (rápido, cuantizado)

  1. Descargar modelo GPTQ

  2. Cargador de modelos: ExLlama_HF o AutoGPTQ

  3. Cargar modelo

EXL2 (Mejor velocidad)

  1. Descargar modelo EXL2

  2. Cargador de modelos: ExLlamav2_HF

  3. Cargar

Configuración de chat

Configuración de personaje

  1. Ir a ParámetrosPersonaje

  2. Crear o cargar ficha de personaje

  3. Establecer:

    • Nombre

    • Contexto/persona

    • Diálogo de ejemplo

Modo Instruct

Para modelos afinados con instrucciones:

  1. ParámetrosPlantilla de instrucción

  2. Seleccionar la plantilla que coincida con su modelo:

    • Llama-2-chat

    • Mistral

    • ChatML

    • Alpaca

Uso de la API

Habilitar API

Comience con --api bandera (puerto predeterminado 5000)

API compatible con OpenAI

API nativa

Extensiones

Instalando extensiones

Habilitar extensiones

  1. Sesión pestaña → Extensiones

  2. Marcar las casillas de las extensiones deseadas

  3. Hacer clic Aplicar y reiniciar

Extensiones populares

Extensión
Propósito

silero_tts

Salida de voz

whisper_stt

Entrada de voz

superbooga

Preguntas y respuestas sobre documentos

sd_api_pictures

Generación de imágenes

multimodal

Comprensión de imágenes

Ajuste de rendimiento

Configuración GGUF

Optimización de memoria

Para VRAM limitada:

Optimización de velocidad

Ajuste fino (LoRA)

Pestaña de entrenamiento

  1. Ir a Entrenamiento pestaña

  2. Cargar modelo base

  3. Subir conjunto de datos (formato JSON)

  4. Configurar:

    • Rango LoRA: 8-32

    • Tasa de aprendizaje: 1e-4

    • Épocas: 3-5

  5. Iniciar entrenamiento

Formato del conjunto de datos

Guardando tu trabajo

Solución de problemas

El modelo no se carga

  • Comprobar el uso de VRAM: nvidia-smi

  • Reducir n_gpu_layers

  • Usar cuantización más pequeña (Q4_K_M → Q4_K_S)

Generación lenta

  • Aumente n_gpu_layers

  • Usar EXL2 en lugar de GGUF

  • Habilite --no-mmap

triangle-exclamation

durante la generación - Reducir `n_ctx` (longitud del contexto) - Usar `--n-gpu-layers 0` para solo CPU - Probar un modelo más pequeño

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Última actualización

¿Te fue útil?