# Modelos de lenguaje

- [Descripción general](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/language-models.md)
- [Ollama](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/ollama.md): Ejecuta LLMs localmente con Ollama en las GPU de Clore.ai
- [Open WebUI](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/open-webui.md): Interfaz tipo ChatGPT para ejecutar LLMs en las GPU de Clore.ai
- [vLLM](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/vllm.md): Inferencia de LLM de alto rendimiento con vLLM en las GPU de Clore.ai
- [Servidor Llama.cpp](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/llamacpp-server.md): Inferencia eficiente de LLM con el servidor llama.cpp en las GPU de Clore.ai
- [Text Generation WebUI](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/text-generation-webui.md): Ejecuta text-generation-webui para inferencia de LLM en las GPU de Clore.ai
- [ExLlamaV2](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/exllamav2-fast.md): Inferencia de LLM a máxima velocidad con ExLlamaV2 en las GPU de Clore.ai
- [LocalAI](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/localai-openai-compatible.md): API autohospedada compatible con OpenAI con LocalAI en Clore.ai
- [Llama 3.3 70B](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/llama33.md): Ejecuta el modelo Llama 3.3 70B de Meta en las GPU de Clore.ai
- [Mistral y Mixtral](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mistral-mixtral.md): Ejecuta modelos Mistral y Mixtral en las GPU de Clore.ai
- [DeepSeek Coder](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/deepseek-coder.md): Generación de código de primer nivel con DeepSeek Coder en Clore.ai
- [DeepSeek-V3](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/deepseek-v3.md): Ejecuta DeepSeek-V3 con razonamiento excepcional en las GPU de Clore.ai
- [Modelo de razonamiento DeepSeek-R1](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/deepseek-r1.md): Ejecuta el modelo de razonamiento de código abierto DeepSeek-R1 en las GPU de Clore.ai
- [Qwen2.5](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/qwen25.md): Ejecuta los LLM multilingües Qwen2.5 de Alibaba en las GPU de Clore.ai
- [CodeLlama](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/codellama.md): Genera, completa y explica código con CodeLlama en Clore.ai
- [Gemma 2](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/gemma2.md): Ejecuta los modelos Gemma 2 de Google de manera eficiente en las GPU de Clore.ai
- [Phi-4](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/phi4.md): Ejecuta el pequeño modelo de lenguaje Phi-4 de Microsoft en las GPU de Clore.ai
- [Llama 4 (Scout y Maverick)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/llama4.md): Ejecuta los modelos MoE Meta Llama 4 Scout y Maverick en las GPU de Clore.ai
- [Gemma 3](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/gemma3.md): Ejecuta los modelos multimodales Google Gemma 3 en Clore.ai — supera a Llama-405B siendo 15 veces más pequeño
- [Gemma 4 (26B MoE, 4B activos)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/gemma4.md): Implementa Gemma 4 (26B MoE, 4B activos) de Google en Clore.ai — el modelo de peso abierto lanzado en abril de 2026 que ascendió a
- [Mistral Small 3.1](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mistral-small.md): Implementa Mistral Small 3.1 (24B) en Clore.ai — el modelo ideal de producción para una sola GPU
- [Qwen3.5](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/qwen35.md): Ejecuta Alibaba Qwen3.5 en Clore.ai — el modelo frontier más reciente (febrero de 2026)
- [Qwen3.5-Omni (multimodal)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/qwen35-omni.md)
- [GLM-5](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/glm5.md): Implementa GLM-5 (744B MoE) de Zhipu AI en Clore.ai — acceso API y autoalojamiento con vLLM
- [GLM-4.7-Flash](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/glm-47-flash.md): Implementa GLM-4.7-Flash (30B MoE) de Zhipu AI en Clore.ai — modelo de lenguaje eficiente con un rendimiento del 59.2% en SWE-bench
- [Kimi K2.5](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/kimi-k2.md): Implementa Kimi K2.5 (1T MoE multimodal) de Moonshot AI en las GPU de Clore.ai
- [Mistral Large 3 (675B MoE)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mistral-large3.md): Ejecuta Mistral Large 3 — un modelo frontier MoE de 675B con 41B parámetros activos en las GPU de Clore.ai
- [Mistral Medium 3.5 (128B denso, 256K)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mistral-medium35.md): Implementa Mistral Medium 3.5 en Clore.ai — 128B denso, contexto de 256K, razonamiento de modo dual lanzado en abril de 2026. Configuración de producción vLLM/SGLang en 4× H100 o 2× H200.
- [MiMo-V2-Flash](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mimo-v2-flash.md): Implementa MiMo-V2-Flash (309B MoE) con decodificación especulativa en Clore.ai — inferencia ultrarrápida con más de 150 tok/s
- [Ling-2.5-1T (1 billón de parámetros)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/ling25.md): Ejecuta Ling-2.5-1T — el LLM de código abierto de 1 billón de parámetros de Ant Group con atención lineal híbrida en las GPU de Clore.ai
- [LFM2-24B-A2B](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/lfm2-24b.md): Implementa LFM2-24B-A2B de Liquid AI en Clore.ai — arquitectura híbrida SSM+Atención con 24B parámetros totales / 2B activos
- [DeepSeek V4 (1.6T MoE, multimodal)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/deepseek-v4.md): Implementa DeepSeek V4 (1.6T parámetros Pro y 284B Flash) en Clore.ai — el MoE frontier de peso abierto lanzado el 22 de abril de 2026
- [GLM-5.1 (744B MoE, #1 SWE-Bench Pro)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/glm-5-1.md): Implementa GLM-5.1 (744B MoE, 40B activos) de Z.ai en Clore.ai — el modelo de peso abierto que encabezó SWE-Bench Pro en abril de 2026
- [NVIDIA Nemotron 3 Super (120B MoE)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/nvidia-nemotron-3-super.md)
- [Gemini 3.1 Flash Lite](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/gemini-3-1-flash-lite.md)
- [Hy3 Preview (Tencent Hunyuan 3, 295B MoE)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/hy3-preview.md): Implementa Hy3 Preview de Tencent (295B MoE, 21B activos, 256K ctx) en Clore.ai — el primer modelo de la pila de entrenamiento reconstruida de Tencent Hunyuan, ajustado para razonamiento de largo horizonte y codificación agentiva
- [MiMo-V2.5-Pro (Xiaomi 1T MoE)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mimo-v25-pro.md): Implementa MiMo-V2.5-Pro (1.02T MoE, 42B activos, contexto de 1M) de Xiaomi en Clore.ai — el primer nivel Pro de peso abierto del equipo MiMo, FP8 nativo, atención híbrida
- [MiniMax M2.7 (229B MoE para código)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/minimax-m27.md): Implementa MiniMax M2.7 (229B MoE) en Clore.ai — la versión autohospedada de peso abierto detrás del impulso del agente de codificación de MiniMax, con despliegue de un solo nodo FP8 en H100/H200
- [Ling-2.6-flash (Ant Group 104B MoE)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/ling-26-flash.md): Implementa Ling-2.6-flash (104B MoE, 7.4B activos) de Ant Group en Clore.ai — el hermano flash ajustado para agentes que cabe en una sola RTX 4090
- [Qwen3.6-27B (denso, GPU única)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/qwen36-27b.md): Implementa Qwen3.6-27B de Alibaba en Clore.ai — un 27B denso que cabe en una sola RTX 4090 y se entrega con contexto nativo de 262K
- [TGI (Inferencia de Generación de Texto)](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/tgi.md): Ejecuta HuggingFace Text Generation Inference (TGI) para servir LLMs en producción en las GPU de Clore.ai
- [SGLang](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/sglang.md): Implementa SGLang para servir LLMs de alto rendimiento con RadixAttention en las GPU de Clore.ai
- [Motor Aphrodite](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/aphrodite-engine.md): Ejecuta Aphrodite Engine para inferencia de LLM en GPU antiguas y modernas en Clore.ai
- [LiteLLM AI Gateway](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/litellm.md): Implementa LiteLLM como proxy AI Gateway para más de 100 LLMs en las GPU de Clore.ai
- [MLC-LLM](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mlc-llm.md)
- [PowerInfer](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/powerinfer.md)
- [LMDeploy](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/lmdeploy.md)
- [Mistral.rs](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mistral-rs.md)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
