SGLang
Despliega SGLang para servir LLMs de alto rendimiento con RadixAttention en las GPU de Clore.ai
Requisitos del servidor
Parámetro
Mínimo
Recomendado
Despliegue rápido en CLORE.AI
Variable
Ejemplo
Descripción
Configuración paso a paso
1. Alquila un servidor GPU en CLORE.AI
2. Conéctate por SSH a tu servidor
3. Obtener la imagen Docker de SGLang
4. Iniciar el servidor SGLang
5. Verificar la salud del servidor
6. Acceso desde el exterior a través del proxy de CLORE.AI
Ejemplos de uso
Ejemplo 1: Completaciones de chat compatibles con OpenAI
Ejemplo 2: Respuesta por streaming
Ejemplo 3: Cliente OpenAI en Python
Ejemplo 4: Inferencia por lotes con la API nativa de SGLang
Ejemplo 5: Salida JSON con restricciones
Configuración
Parámetros clave de lanzamiento
Parámetro
Por defecto
Descripción
Opciones de cuantización
Consejos de rendimiento
1. RadixAttention — La ventaja clave
2. Aumentar el tamaño de la caché KV
3. Prefill por fragmentos para contextos largos
4. Habilitar el backend FlashInfer
5. Paralelismo tensorial multi-GPU
6. Ajustar para rendimiento vs latencia
Solución de problemas
Problema: "torch.cuda.OutOfMemoryError"
Problema: El servidor no arranca (se queda cargando)
Problema: "trust_remote_code required"
Problema: Generación lenta en modelos MoE
Problema: Errores de longitud de contexto
Problema: Puerto 30000 no accesible
Enlaces
Recomendaciones de GPU de Clore.ai
Caso de uso
GPU recomendada
Coste estimado en Clore.ai
Última actualización
¿Te fue útil?