Llama 3.3 70B

Ejecuta el modelo Llama 3.3 70B de Meta en GPUs de Clore.ai

circle-info

¡Nueva versión disponible! Meta lanzó Llama 4 en abril de 2025 con arquitectura MoE — Scout (17B activos, cabe en RTX 4090) ofrece calidad similar con una fracción de la VRAM. Considere actualizar.

El modelo más reciente y eficiente de 70B de Meta en GPUs CLORE.AI.

circle-check

¿Por qué Llama 3.3?

  • Mejor modelo de 70B - Iguala el rendimiento de Llama 3.1 405B a una fracción del costo

  • Multilingüe - Soporta 8 idiomas de forma nativa

  • Contexto de 128K - Procesamiento de documentos largos

  • Pesos abiertos - Gratis para uso comercial

Resumen del modelo

Especificación
Valor

Parámetros

70B

Longitud de contexto

128K tokens

Datos de entrenamiento

15T+ tokens

Idiomas

EN, DE, FR, IT, PT, HI, ES, TH

Licencia

Licencia comunitaria Llama 3.3

Rendimiento vs otros modelos

Benchmark
Llama 3.3 70B
Llama 3.1 405B
GPT-4o

MMLU

86.0

87.3

88.7

HumanEval

88.4

89.0

90.2

MATES

77.0

73.8

76.6

Multilingüe

91.1

91.6

-

Requisitos de GPU

Configuración
VRAM
Rendimiento
Costo

Cuantizado Q4

40GB

Bueno

A100 40GB (~$0.17/h)

Cuantizado Q8

70GB

Mejor

A100 80GB (~$0.25/h)

FP16 completo

140GB

Mejor

2x A100 80GB (~$0.50/h)

Recomendado: A100 40GB con cuantización Q4 para la mejor relación precio/rendimiento.

Despliegue rápido en CLORE.AI

Usando Ollama (lo más fácil)

Imagen Docker:

Puertos:

Después del despliegue:

Usando vLLM (producción)

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Métodos de instalación

Método 1: Ollama (Recomendado para pruebas)

Uso de la API:

Método 2: vLLM (producción)

Uso de la API (compatible con OpenAI):

Método 3: Transformers + bitsandbytes

Método 4: llama.cpp (híbrido CPU+GPU)

Benchmarks

Rendimiento (tokens/segundo)

GPU
Q4
Q8
FP16

A100 40GB

25-30

-

-

A100 80GB

35-40

25-30

-

2x A100 80GB

50-60

40-45

30-35

H100 80GB

60-70

45-50

35-40

Tiempo hasta el primer token (TTFT)

GPU
Q4
FP16

A100 40GB

0.8-1.2s

-

A100 80GB

0.6-0.9s

-

2x A100 80GB

0.4-0.6s

0.8-1.0s

Longitud de contexto vs VRAM

Contexto
VRAM Q4
VRAM Q8

4K

38GB

72GB

8K

40GB

75GB

16K

44GB

80GB

32K

52GB

90GB

64K

68GB

110GB

128K

100GB

150GB

Casos de uso

Generación de código

Análisis de documentos (contexto largo)

Tareas multilingües

Razonamiento y análisis

Consejos de optimización

Optimización de memoria

Optimización de velocidad

Procesamiento por lotes

Comparación con otros modelos

Función
Llama 3.3 70B
Llama 3.1 70B
Qwen 2.5 72B
Mixtral 8x22B

MMLU

86.0

83.6

85.3

77.8

Programación

88.4

80.5

85.4

75.5

Matemáticas

77.0

68.0

80.0

60.0

Contexto

128K

128K

128K

64K

Idiomas

8

8

29

8

Licencia

Abrir

Abrir

Abrir

Abrir

Veredicto: Llama 3.3 70B ofrece el mejor rendimiento general en su clase, especialmente para tareas de programación y razonamiento.

Solución de problemas

Memoria insuficiente

Primera respuesta lenta

  • La primera solicitud carga el modelo en la GPU - espere 30-60 segundos

  • Usa --enable-prefix-caching para solicitudes posteriores más rápidas

  • Precalentar con una solicitud falsa

Acceso a Hugging Face

Estimación de costos

Configuración
GPU
$/hora
tokens/$

Económico

A100 40GB (Q4)

~$0.17

~530K

Equilibrado

A100 80GB (Q4)

~$0.25

~500K

Rendimiento

2x A100 80GB

~$0.50

~360K

Máximo

H100 80GB

~$0.50

~500K

Próximos pasos

Última actualización

¿Te fue útil?