# Descripción general

Ejecute modelos de lenguaje grande (LLMs) en GPUs de CLORE.AI para aplicaciones de inferencia y chat.

## Herramientas populares

| Herramienta                                                                                | Caso de uso                                   | Dificultad   |
| ------------------------------------------------------------------------------------------ | --------------------------------------------- | ------------ |
| [Ollama](/guides/guides_v2-es/modelos-de-lenguaje/ollama.md)                               | Configuración de LLM más fácil                | Principiante |
| [Open WebUI](/guides/guides_v2-es/modelos-de-lenguaje/open-webui.md)                       | Interfaz tipo ChatGPT                         | Principiante |
| [vLLM](/guides/guides_v2-es/modelos-de-lenguaje/vllm.md)                                   | Servicio de producción de alto rendimiento    | Medio        |
| [Llama.cpp Server](/guides/guides_v2-es/modelos-de-lenguaje/llamacpp-server.md)            | Inferencia GGUF eficiente                     | Fácil        |
| [Text Generation WebUI](/guides/guides_v2-es/modelos-de-lenguaje/text-generation-webui.md) | Interfaz de chat completa                     | Fácil        |
| [ExLlamaV2](/guides/guides_v2-es/modelos-de-lenguaje/exllamav2-fast.md)                    | Inferencia EXL2 más rápida                    | Medio        |
| [LocalAI](/guides/guides_v2-es/modelos-de-lenguaje/localai-openai-compatible.md)           | API compatible con OpenAI                     | Medio        |
| [SGLang](/guides/guides_v2-es/modelos-de-lenguaje/sglang.md)                               | Generación estructurada rápida                | Medio        |
| [Text Generation Inference (TGI)](/guides/guides_v2-es/modelos-de-lenguaje/tgi.md)         | Solución de servicio de HuggingFace           | Medio        |
| [LMDeploy](/guides/guides_v2-es/modelos-de-lenguaje/lmdeploy.md)                           | Conjunto de herramientas de servicio de MMlab | Medio        |
| [Aphrodite Engine](/guides/guides_v2-es/modelos-de-lenguaje/aphrodite-engine.md)           | Fork de vLLM con funciones adicionales        | Medio        |
| [MLC-LLM](/guides/guides_v2-es/modelos-de-lenguaje/mlc-llm.md)                             | Compilación para aprendizaje automático       | Difícil      |
| [LiteLLM](/guides/guides_v2-es/modelos-de-lenguaje/litellm.md)                             | Proxy de API unificado                        | Medio        |
| [PowerInfer](/guides/guides_v2-es/modelos-de-lenguaje/powerinfer.md)                       | Inferencia de modelos dispersos               | Difícil      |
| [Mistral.rs](/guides/guides_v2-es/modelos-de-lenguaje/mistral-rs.md)                       | Motor de inferencia en Rust                   | Medio        |

## Guías de modelos

### Modelos más recientes y mejores

| Modelo                                                                 | Parámetros   | Mejor para                        |
| ---------------------------------------------------------------------- | ------------ | --------------------------------- |
| [DeepSeek-V3](/guides/guides_v2-es/modelos-de-lenguaje/deepseek-v3.md) | 671B MoE     | Razonamiento, código, matemáticas |
| [DeepSeek-R1](/guides/guides_v2-es/modelos-de-lenguaje/deepseek-r1.md) | 671B MoE     | Razonamiento avanzado             |
| [DeepSeek V4](/guides/guides_v2-es/modelos-de-lenguaje/deepseek-v4.md) | Por anunciar | DeepSeek de próxima generación    |
| [Qwen2.5](/guides/guides_v2-es/modelos-de-lenguaje/qwen25.md)          | 0.5B-72B     | Multilingüe, código               |
| [Qwen3.5](/guides/guides_v2-es/modelos-de-lenguaje/qwen35.md)          | Por anunciar | Última generación Qwen            |
| [Llama 3.3](/guides/guides_v2-es/modelos-de-lenguaje/llama33.md)       | 70B          | El último 70B de Meta             |
| [Llama 4](/guides/guides_v2-es/modelos-de-lenguaje/llama4.md)          | Por anunciar | Variantes Scout y Maverick        |

### Modelos especializados

| Modelo                                                                       | Parámetros   | Mejor para                   |
| ---------------------------------------------------------------------------- | ------------ | ---------------------------- |
| [DeepSeek Coder](/guides/guides_v2-es/modelos-de-lenguaje/deepseek-coder.md) | 6.7B-33B     | Generación de código         |
| [CodeLlama](/guides/guides_v2-es/modelos-de-lenguaje/codellama.md)           | 7B-34B       | Autocompletado de código     |
| [GLM-4.7-Flash](/guides/guides_v2-es/modelos-de-lenguaje/glm-47-flash.md)    | 4.7B         | Rápido chino/inglés          |
| [GLM-5](/guides/guides_v2-es/modelos-de-lenguaje/glm5.md)                    | Por anunciar | Último de Zhipu AI           |
| [Kimi K2.5](/guides/guides_v2-es/modelos-de-lenguaje/kimi-k2.md)             | Por anunciar | Modelo Moonshot AI           |
| [Ling-2.5-1T](/guides/guides_v2-es/modelos-de-lenguaje/ling25.md)            | 1T           | LLM de código abierto masivo |
| [LFM2-24B](/guides/guides_v2-es/modelos-de-lenguaje/lfm2-24b.md)             | 24B          | Modelo Liquid AI             |
| [MiMo-V2-Flash](/guides/guides_v2-es/modelos-de-lenguaje/mimo-v2-flash.md)   | Por anunciar | Modelo de inferencia rápido  |

### Modelos eficientes

| Modelo                                                                         | Parámetros   | Mejor para                           |
| ------------------------------------------------------------------------------ | ------------ | ------------------------------------ |
| [Gemma 2](/guides/guides_v2-es/modelos-de-lenguaje/gemma2.md)                  | 2B-27B       | Inferencia eficiente                 |
| [Gemma 3](/guides/guides_v2-es/modelos-de-lenguaje/gemma3.md)                  | Por anunciar | La última versión compacta de Google |
| [Phi-4](/guides/guides_v2-es/modelos-de-lenguaje/phi4.md)                      | 14B          | Pequeño pero capaz                   |
| [Mistral/Mixtral](/guides/guides_v2-es/modelos-de-lenguaje/mistral-mixtral.md) | 7B / 8x7B    | Propósito general                    |
| [Mistral Large 3](/guides/guides_v2-es/modelos-de-lenguaje/mistral-large3.md)  | 675B MoE     | Nivel empresarial                    |
| [Mistral Small 3.1](/guides/guides_v2-es/modelos-de-lenguaje/mistral-small.md) | Por anunciar | Variante Mistral eficiente           |

## Recomendaciones de GPU

| Tamaño del modelo | GPU mínima    | Recomendado |
| ----------------- | ------------- | ----------- |
| 7B (Q4)           | RTX 3060 12GB | RTX 3090    |
| 13B (Q4)          | RTX 3090 24GB | RTX 4090    |
| 34B (Q4)          | 2x RTX 3090   | A100 40GB   |
| 70B (Q4)          | A100 80GB     | 2x A100     |

## Guía de cuantización

| Formato  | Uso de VRAM | Calidad   | Velocidad     |
| -------- | ----------- | --------- | ------------- |
| Q2\_K    | Mínimo      | Pobre     | El más rápido |
| Q4\_K\_M | Bajo        | Bueno     | Rápido        |
| Q5\_K\_M | Medio       | Excelente | Medio         |
| Q8\_0    | Alto        | Excelente | Más lento     |
| FP16     | Máximo      | Mejor     | El más lento  |

## Ver también

* [Entrenamiento y ajuste fino](/guides/guides_v2-es/entrenamiento/training.md)
* [Modelos visión-lenguaje](/guides/guides_v2-es/modelos-de-vision/vision-models.md)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/language-models.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
