Resumen

Ejecuta grandes modelos de lenguaje (LLMs) en GPUs de CLORE.AI para inferencia y aplicaciones de chat.

Herramientas populares

Herramienta
Caso de uso
Dificultad

Configuración de LLM más fácil

Principiante

Interfaz similar a ChatGPT

Principiante

Servicio de producción de alto rendimiento

Medio

Inferencia GGUF eficiente

Fácil

Interfaz de chat con todas las funciones

Fácil

Inferencia EXL2 más rápida

Medio

API compatible con OpenAI

Medio

Guías de modelos

Modelo
Parámetros
Mejor para

671B MoE

Razonamiento, código, matemáticas

0.5B-72B

Multilingüe, código

7B / 8x7B

Propósito general

6.7B-33B

Generación de código

7B-34B

Completado de código

2B-27B

Inferencia eficiente

14B

Pequeño pero capaz

Recomendaciones de GPU

Tamaño del modelo
GPU mínima
Recomendado

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

Guía de cuantización

Formato
Uso de VRAM
Calidad
Velocidad

Q2_K

Más bajo

Pobre

El más rápido

Q4_K_M

Baja

Bueno

Rápido

Q5_K_M

Medio

Genial

Medio

Q8_0

Alto

Excelente

Más lento

FP16

Más alto

Mejor

El más lento

Ver también

Última actualización

¿Te fue útil?