LMDeploy
¿Qué es LMDeploy?
¿Por qué LMDeploy?
Característica
LMDeploy
vLLM
TGI
Inicio rápido en Clore.ai
Paso 1: Seleccionar un servidor GPU
Paso 2: Desplegar LMDeploy Docker
Puerto del contenedor
Propósito
Paso 3: SSH y Verificación
Iniciando el Servidor API
Servidor compatible con OpenAI (Recomendado)
Motor PyTorch (Mayor compatibilidad)
Salida de inicio del servidor
Modelos compatibles
Modelos de texto
Modelos Visión-Lenguaje
Cuantización
Cuantización AWQ de 4 bits
SmoothQuant W8A8
Impacto de la cuantización
Cuantización
VRAM (7B)
Pérdida de calidad
Ganancia de rendimiento
Ejemplos de uso de la API
Cliente Python
Streaming
Cliente Python nativo de LMDeploy
Modelo Visión-Lenguaje
Despliegue multi-GPU
Paralelismo tensorial
Configuración avanzada
Configuración del motor TurboMind
Configuración de generación
Monitoreo y métricas
Comprobar la salud del servidor
Monitoreo de GPU
Ejemplo Docker Compose
Benchmarking
Recomendaciones de GPU en Clore.ai
Caso de uso
GPU
VRAM
Por qué
Solución de problemas
Modelo no carga
CUDA Fuera de memoria
Puerto ya en uso
Recomendaciones de GPU en Clore.ai
GPU
VRAM
Precio en Clore.ai
Rendimiento Llama 3 8B
Llama 3 70B Q4
Recursos
Última actualización
¿Te fue útil?