Descripción general

Ejecute modelos de lenguaje grande (LLMs) en GPUs de CLORE.AI para aplicaciones de inferencia y chat.

Herramientas populares

Herramienta

Caso de uso

Dificultad

Ollama

Configuración de LLM más fácil

Principiante

Open WebUI

Interfaz tipo ChatGPT

Principiante

vLLM

Servicio de producción de alto rendimiento

Medio

Llama.cpp Server

Inferencia GGUF eficiente

Fácil

Text Generation WebUI

Interfaz de chat completa

Fácil

ExLlamaV2

Inferencia EXL2 más rápida

Medio

LocalAI

API compatible con OpenAI

Medio

SGLang

Generación estructurada rápida

Medio

Text Generation Inference (TGI)

Solución de servicio de HuggingFace

Medio

LMDeploy

Conjunto de herramientas de servicio de MMlab

Medio

Aphrodite Engine

Fork de vLLM con funciones adicionales

Medio

MLC-LLM

Compilación para aprendizaje automático

Difícil

LiteLLM

Proxy de API unificado

Medio

PowerInfer

Inferencia de modelos dispersos

Difícil

Mistral.rs

Motor de inferencia en Rust

Medio

Guías de modelos

Modelos más recientes y mejores

Modelo

Parámetros

Mejor para

DeepSeek-V3

671B MoE

Razonamiento, código, matemáticas

DeepSeek-R1

671B MoE

Razonamiento avanzado

DeepSeek V4

Por anunciar

DeepSeek de próxima generación

Qwen2.5

0.5B-72B

Multilingüe, código

Qwen3.5

Por anunciar

Última generación Qwen

Llama 3.3

70B

El último 70B de Meta

Llama 4

Por anunciar

Variantes Scout y Maverick

Modelos especializados

Modelo

Parámetros

Mejor para

DeepSeek Coder

6.7B-33B

Generación de código

CodeLlama

7B-34B

Autocompletado de código

GLM-4.7-Flash

4.7B

Rápido chino/inglés

GLM-5

Por anunciar

Último de Zhipu AI

Kimi K2.5

Por anunciar

Modelo Moonshot AI

Ling-2.5-1T

LLM de código abierto masivo

LFM2-24B

24B

Modelo Liquid AI

MiMo-V2-Flash

Por anunciar

Modelo de inferencia rápido

Modelos eficientes

Modelo

Parámetros

Mejor para

Gemma 2

2B-27B

Inferencia eficiente

Gemma 3

Por anunciar

La última versión compacta de Google

Phi-4

14B

Pequeño pero capaz

Mistral/Mixtral

7B / 8x7B

Propósito general

Mistral Large 3

675B MoE

Nivel empresarial

Mistral Small 3.1

Por anunciar

Variante Mistral eficiente

Recomendaciones de GPU

Tamaño del modelo

GPU mínima

Recomendado

7B (Q4)

RTX 3060 12GB

RTX 3090

13B (Q4)

RTX 3090 24GB

RTX 4090

34B (Q4)

2x RTX 3090

A100 40GB

70B (Q4)

A100 80GB

2x A100

Guía de cuantización

Formato

Uso de VRAM

Calidad

Velocidad

Q2_K

Mínimo

Pobre

El más rápido

Q4_K_M

Bajo

Bueno

Rápido

Q5_K_M

Medio

Excelente

Medio

Q8_0

Alto

Excelente

Más lento

FP16

Máximo

Mejor

El más lento

Ver también

AnteriorSolución de problemas SiguienteOllama

Última actualización hace 4 días

¿Te fue útil?

hashtagHerramientas populares

hashtagGuías de modelos

hashtagModelos más recientes y mejores

hashtagModelos especializados

hashtagModelos eficientes

hashtagRecomendaciones de GPU

hashtagGuía de cuantización

hashtagVer también

Herramientas populares

Guías de modelos

Modelos más recientes y mejores

Modelos especializados

Modelos eficientes

Recomendaciones de GPU

Guía de cuantización

Ver también