LitGPT

LitGPT es una biblioteca de alto rendimiento para preentrenamiento, ajuste fino y despliegue de más de 20 modelos de lenguaje grandes construidos sobre PyTorch Lightning. Con más de 12K estrellas en GitHub, es un conjunto de herramientas preferido por ingenieros que necesitan código de entrenamiento de LLM limpio y modificable sin la sobrecarga de abstracción de HuggingFace Transformers.

Cada modelo en LitGPT son ~1.000 líneas de PyTorch limpio: no hay cadenas de herencia de 10 niveles, no hay magia. Puedes leer la implementación de Llama 3 de principio a fin en una tarde y modificarla con confianza.

circle-check

¿Qué es LitGPT?

LitGPT proporciona implementaciones listas para producción de LLMs de vanguardia con una interfaz de entrenamiento unificada:

  • Más de 20 modelos compatibles — Llama 3, Gemma 2, Mistral, Phi-3, Falcon, StableLM y más

  • Preentrenamiento desde cero — preentrenamiento completo con Flash Attention, FSDP y checkpointing de gradiente

  • Ajuste fino eficiente — ajuste fino completo, LoRA, QLoRA y métodos Adapter

  • Servir con confianza — servidor de inferencia incorporado con cuantización

  • Soporte Multi-GPU — DDP, FSDP, paralelismo de tensores listo para usar

  • Eficiente en memoria — cuantización a 4 bits, checkpointing de gradiente, checkpointing de activaciones


Requisitos del servidor

Componente
Mínimo
Recomendado

GPU

RTX 3090 (24 GB)

A100 80 GB / H100

VRAM

16 GB (LoRA 7B)

80 GB+ (70B completo)

RAM

32 GB

64 GB+

CPU

8 núcleos

16+ núcleos

Almacenamiento

100 GB

500 GB+

SO

Ubuntu 20.04+

Ubuntu 22.04

Python

3.10+

3.11

CUDA

11.8+

12.1+

Requisitos de VRAM por tarea

Tarea
Modelo
VRAM

Inferencia (4 bits)

Llama-3 8B

~6 GB

Ajuste LoRA

Llama-3 8B

~16 GB

Ajuste completo

Llama-3 8B

~80 GB

Ajuste LoRA

Llama-3 70B

~48 GB (2×A100)

Ajuste completo

Llama-3 70B

~640 GB (8×A100)

Ajuste QLoRA

Llama-3 8B

~8 GB


Puertos

Puerto
Servicio
Notas

22

SSH

Acceso al terminal y transferencia de archivos

8000

Servidor de inferencia LitGPT

API REST para servir modelos


Inicio rápido con Docker


Instalación en Clore.ai

Paso 1 — Alquila un servidor

  1. Filtra por VRAM ≥ 24 GB (RTX 3090 o mejor)

  2. Selecciona una Imagen base PyTorch o CUDA 12.1 imagen base

  3. Abre puertos 22 y 8000 en la configuración de tu pedido

  4. Selecciona almacenamiento ≥ 200 GB para los pesos del modelo

Paso 2 — Conéctate vía SSH

Paso 3 — Instala LitGPT

Paso 4 — Verifica la instalación

Salida esperada:


Descargando modelos

LitGPT descarga modelos desde Hugging Face:

Establecer token de HuggingFace


Inferencia (Chat y Generar)


Ajuste fino

Ajuste LoRA (recomendado)

LoRA entrena un pequeño conjunto de parámetros adaptadores (típicamente 0.1–1% del total de pesos) mientras el modelo base permanece congelado. Llama 3 8B con LoRA en 10K ejemplos toma ~2 horas en una RTX 3090 con r=16.

QLoRA (4 bits + LoRA)

Usa QLoRA para ajustar modelos grandes con VRAM limitada. Llama 3 8B cabe en una sola RTX 3090 de 24 GB:

Ajuste fino completo

Entrenamiento Multi-GPU


Servir modelos (API REST)

Cliente Python


Preentrenamiento desde cero

Para entrenar un LLM personalizado desde cero con tus propios datos:


Conversión y exportación de modelos


Evaluando modelos


Recomendaciones de GPU de Clore.ai

LitGPT cubre tres cargas de trabajo distintas — inferencia, ajuste LoRA y preentrenamiento completo — cada una con diferentes requisitos de GPU.

Carga de trabajo
GPU
VRAM
Notas

Inferencia / chat (modelos 7–8B)

RTX 3090

24 GB

Ajusta Llama 3 8B en bf16; ~95 tok/s de generación

Ajuste LoRA (modelos 7–8B)

RTX 3090

24 GB

Opción económica; QLoRA mantiene la VRAM por debajo de 10 GB

Ajuste LoRA (7–8B), iteración rápida

RTX 4090

24 GB

~35% más rápido que la 3090; reduce un trabajo de 2 horas a ~1.4 horas

Ajuste completo (7B) o QLoRA (70B)

A100 40 GB

40 GB

40 GB aloja 7B en precisión completa o 70B en 4 bits

Ajuste completo (13B+) o ejecuciones de preentrenamiento

A100 80 GB

80 GB

Máxima tasa de procesamiento; ~2.800 tok/seg de entrenamiento en 8B

Recomendado para la mayoría de los usuarios: Par de RTX 3090 (2×24 GB = 48 GB efectivo con FSDP). Maneja QLoRA en modelos de 70B, o ajuste completo en modelos de 7B con paralelismo de tensores. Costo en Clore.ai: ~$0.25/h por dos 3090.

Para preentrenamiento o ajuste de >70B: Usa 4×A100 80GB con FSDP. La integración FSDP de LitGPT maneja el sharding de forma transparente — solo pasa --devices 4 --strategy fsdp.


Solución de problemas

CUDA Fuera de memoria

La descarga falla / HuggingFace 401

La pérdida de entrenamiento no disminuye

Puerto del servidor 8000 no accesible

El entrenamiento Multi-GPU se queda colgado


Enlaces útiles

Última actualización

¿Te fue útil?