Descripción general

Ejecute modelos de lenguaje grande (LLMs) en GPUs de CLORE.AI para aplicaciones de inferencia y chat.

Herramientas populares

Herramienta
Caso de uso
Dificultad

Configuración de LLM más fácil

Principiante

Interfaz tipo ChatGPT

Principiante

Servicio de producción de alto rendimiento

Medio

Inferencia GGUF eficiente

Fácil

Interfaz de chat completa

Fácil

Inferencia EXL2 más rápida

Medio

API compatible con OpenAI

Medio

Generación estructurada rápida

Medio

Solución de servicio de HuggingFace

Medio

Conjunto de herramientas de servicio de MMlab

Medio

Fork de vLLM con funciones adicionales

Medio

Compilación para aprendizaje automático

Difícil

Proxy de API unificado

Medio

Inferencia de modelos dispersos

Difícil

Motor de inferencia en Rust

Medio

Guías de modelos

Modelos más recientes y mejores

Modelo
Parámetros
Mejor para

671B MoE

Razonamiento, código, matemáticas

671B MoE

Razonamiento avanzado

Por anunciar

DeepSeek de próxima generación

0.5B-72B

Multilingüe, código

Por anunciar

Última generación Qwen

70B

El último 70B de Meta

Por anunciar

Variantes Scout y Maverick

Modelos especializados

Modelo
Parámetros
Mejor para

6.7B-33B

Generación de código

7B-34B

Autocompletado de código

4.7B

Rápido chino/inglés

Por anunciar

Último de Zhipu AI

Por anunciar

Modelo Moonshot AI

1T

LLM de código abierto masivo

24B

Modelo Liquid AI

Por anunciar

Modelo de inferencia rápido

Modelos eficientes

Modelo
Parámetros
Mejor para

2B-27B

Inferencia eficiente

Por anunciar

La última versión compacta de Google

14B

Pequeño pero capaz

7B / 8x7B

Propósito general

675B MoE

Nivel empresarial

Por anunciar

Variante Mistral eficiente

Recomendaciones de GPU

Tamaño del modelo
GPU mínima
Recomendado

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

Guía de cuantización

Formato
Uso de VRAM
Calidad
Velocidad

Q2_K

Mínimo

Pobre

El más rápido

Q4_K_M

Bajo

Bueno

Rápido

Q5_K_M

Medio

Excelente

Medio

Q8_0

Alto

Excelente

Más lento

FP16

Máximo

Mejor

El más lento

Ver también

Última actualización

¿Te fue útil?