# Resumen

Ejecute modelos de lenguaje grande (LLMs) en GPUs de CLORE.AI para aplicaciones de inferencia y chat.

## Herramientas populares

| Herramienta                                                                                                  | Caso de uso                                   | Dificultad   |
| ------------------------------------------------------------------------------------------------------------ | --------------------------------------------- | ------------ |
| [Ollama](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/ollama)                               | Configuración de LLM más fácil                | Principiante |
| [Open WebUI](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/open-webui)                       | Interfaz tipo ChatGPT                         | Principiante |
| [vLLM](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/vllm)                                   | Servicio de producción de alto rendimiento    | Medio        |
| [Llama.cpp Server](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/llamacpp-server)            | Inferencia GGUF eficiente                     | Fácil        |
| [Text Generation WebUI](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/text-generation-webui) | Interfaz de chat completa                     | Fácil        |
| [ExLlamaV2](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/exllamav2-fast)                    | Inferencia EXL2 más rápida                    | Medio        |
| [LocalAI](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/localai-openai-compatible)           | API compatible con OpenAI                     | Medio        |
| [SGLang](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/sglang)                               | Generación estructurada rápida                | Medio        |
| [Text Generation Inference (TGI)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/tgi)         | Solución de servicio de HuggingFace           | Medio        |
| [LMDeploy](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/lmdeploy)                           | Conjunto de herramientas de servicio de MMlab | Medio        |
| [Aphrodite Engine](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/aphrodite-engine)           | Fork de vLLM con funciones adicionales        | Medio        |
| [MLC-LLM](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mlc-llm)                             | Compilación para aprendizaje automático       | Difícil      |
| [LiteLLM](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/litellm)                             | Proxy de API unificado                        | Medio        |
| [PowerInfer](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/powerinfer)                       | Inferencia de modelos dispersos               | Difícil      |
| [Mistral.rs](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mistral-rs)                       | Motor de inferencia en Rust                   | Medio        |

## Guías de modelos

### Modelos más recientes y mejores

| Modelo                                                                                   | Parámetros   | Mejor para                        |
| ---------------------------------------------------------------------------------------- | ------------ | --------------------------------- |
| [DeepSeek-V3](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/deepseek-v3) | 671B MoE     | Razonamiento, código, matemáticas |
| [DeepSeek-R1](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/deepseek-r1) | 671B MoE     | Razonamiento avanzado             |
| [DeepSeek V4](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/deepseek-v4) | Por anunciar | DeepSeek de próxima generación    |
| [Qwen2.5](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/qwen25)          | 0.5B-72B     | Multilingüe, código               |
| [Qwen3.5](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/qwen35)          | Por anunciar | Última generación Qwen            |
| [Llama 3.3](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/llama33)       | 70B          | El último 70B de Meta             |
| [Llama 4](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/llama4)          | Por anunciar | Variantes Scout y Maverick        |

### Modelos especializados

| Modelo                                                                                         | Parámetros   | Mejor para                   |
| ---------------------------------------------------------------------------------------------- | ------------ | ---------------------------- |
| [DeepSeek Coder](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/deepseek-coder) | 6.7B-33B     | Generación de código         |
| [CodeLlama](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/codellama)           | 7B-34B       | Autocompletado de código     |
| [GLM-4.7-Flash](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/glm-47-flash)    | 4.7B         | Rápido chino/inglés          |
| [GLM-5](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/glm5)                    | Por anunciar | Último de Zhipu AI           |
| [Kimi K2.5](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/kimi-k2)             | Por anunciar | Modelo Moonshot AI           |
| [Ling-2.5-1T](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/ling25)            | 1T           | LLM de código abierto masivo |
| [LFM2-24B](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/lfm2-24b)             | 24B          | Modelo Liquid AI             |
| [MiMo-V2-Flash](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mimo-v2-flash)   | Por anunciar | Modelo de inferencia rápido  |

### Modelos eficientes

| Modelo                                                                                           | Parámetros   | Mejor para                           |
| ------------------------------------------------------------------------------------------------ | ------------ | ------------------------------------ |
| [Gemma 2](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/gemma2)                  | 2B-27B       | Inferencia eficiente                 |
| [Gemma 3](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/gemma3)                  | Por anunciar | La última versión compacta de Google |
| [Phi-4](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/phi4)                      | 14B          | Pequeño pero capaz                   |
| [Mistral/Mixtral](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mistral-mixtral) | 7B / 8x7B    | Propósito general                    |
| [Mistral Large 3](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mistral-large3)  | 675B MoE     | Nivel empresarial                    |
| [Mistral Small 3.1](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mistral-small) | Por anunciar | Variante Mistral eficiente           |

## Recomendaciones de GPU

| Tamaño del modelo | GPU mínima    | Recomendado |
| ----------------- | ------------- | ----------- |
| 7B (Q4)           | RTX 3060 12GB | RTX 3090    |
| 13B (Q4)          | RTX 3090 24GB | RTX 4090    |
| 34B (Q4)          | 2x RTX 3090   | A100 40GB   |
| 70B (Q4)          | A100 80GB     | 2x A100     |

## Guía de cuantización

| Formato  | Uso de VRAM | Calidad   | Velocidad     |
| -------- | ----------- | --------- | ------------- |
| Q2\_K    | Mínimo      | Pobre     | El más rápido |
| Q4\_K\_M | Bajo        | Bueno     | Rápido        |
| Q5\_K\_M | Medio       | Excelente | Medio         |
| Q8\_0    | Alto        | Excelente | Más lento     |
| FP16     | Máximo      | Mejor     | El más lento  |

## Ver también

* [Entrenamiento y ajuste fino](https://docs.clore.ai/guides/guides_v2-es/entrenamiento/training)
* [Modelos visión-lenguaje](https://docs.clore.ai/guides/guides_v2-es/modelos-de-vision/vision-models)
