> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mistral-medium35.md).

# Mistral Medium 3.5 (128B denso, 256K)

{% hint style="info" %}
**Estado (abril de 2026):** Mistral Medium 3.5 se lanzó el **29 de abril de 2026** por Mistral AI como sucesor de Mistral Medium 3. Los pesos están disponibles en [huggingface.co/mistralai/Mistral-Medium-3.5](https://huggingface.co/mistralai/Mistral-Medium-3.5) bajo la **Licencia de Investigación de Mistral (MRL)** para investigación; la **Licencia Comercial de Mistral** se requiere para uso en producción más allá de la evaluación. vLLM (≥ 0.8.x) y SGLang incluyen compatibilidad desde el día 0.
{% endhint %}

Mistral Medium 3.5 es un **transformer denso de 128B** con una **ventana de contexto de 256K tokens** y un **interruptor nativo de razonamiento** que alterna entre respuestas rápidas "instant" y trazas más largas de cadena de pensamiento "deep" en el mismo checkpoint. El lanzamiento consolida tres líneas de Mistral que antes eran separadas — **Medium 3** (instrucción general), **Codestral** (código) y la vista previa de razonamiento de Mistral— en un único modelo conmutable, que es el cambio principal para los equipos de ingeniería que estaban manejando varios pesos.

Para los usuarios de Clore.ai, la implicación práctica es el dimensionamiento. Un modelo denso de 128B en FP8 pesa aproximadamente **128 GB** antes de la caché KV, así que **no** cabe en una sola GPU de 80 GB con precisión completa — necesitas **4× H100 80 GB** (FP8) o **2× H200 141 GB** para servirlo correctamente mediante vLLM. En el marketplace eso ronda **24–48 USD/día** para la configuración 4× H100 o **30–50 USD/día** para 2× H200, que es el punto óptimo para la mayoría de los equipos. Las implementaciones con una sola H100 solo funcionan con una cuantización agresiva Q4 GGUF (\~70 tok/s vía llama.cpp), y el contexto de 256 K es lo primero que desaparece cuando comprimes.

## Características principales

* **128B de parámetros densos** — sin trucos de enrutamiento MoE, perfil predecible de VRAM y latencia, más fácil de ajustar que los modelos dispersos
* **ventana de contexto de 256K** — análisis de bases de código completas, RAG de documentos largos, bucles de agentes de múltiples turnos sin truncamiento
* **Razonamiento de doble modo** — alterna `reasoning_mode=instant` para latencia tipo chat o `reasoning_mode=deep` para mostrar una `<think>` traza antes de la respuesta
* **Instrucción + código + razonamiento unificados** — un solo conjunto de pesos reemplaza Medium 3 + Codestral + la vista previa de razonamiento
* **Llamada a funciones y salidas estructuradas** — aplicación nativa de esquemas JSON, formato de tool-call compatible con OpenAI
* **Pesos abiertos** — MRL para investigación, licencia comercial disponible; los pesos permanecen en tu equipo y nunca hacen ida y vuelta a una API del proveedor
* **Compatibilidad desde el día 0 con vLLM y SGLang** — rutas FP8 listas para producción, paralelismo tensorial, prellenado por bloques, batching continuo

## Modos de razonamiento

Medium 3.5 es el primer modelo de Mistral que incluye un único checkpoint que sirve respuestas tanto "rápidas" como de "pensamiento". El interruptor se controla en tiempo de solicitud, no en tiempo de carga, así que un proceso de vLLM maneja ambos modos para el mismo solicitante.

| Modo                       | Cuándo usarlo                                                                                                            | TTFT típico                               | Forma de la salida                                |
| -------------------------- | ------------------------------------------------------------------------------------------------------------------------ | ----------------------------------------- | ------------------------------------------------- |
| `instant` (predeterminado) | Chat, autocompletado, clasificación, llamadas a funciones donde importa la latencia                                      | 50–250 ms                                 | Solo respuesta                                    |
| `deep`                     | Revisión de código, planificación de múltiples pasos, matemáticas, depuración compleja, paso de planificación de agentes | 1–6 s antes del primer token de respuesta | `<think>...</think>` traza, luego respuesta final |

En `deep` modo, el modelo emite un tramo de razonamiento oculto (encerrado en `<think>...</think>` por la plantilla de chat) antes de la respuesta visible. Esto cuesta desde unos pocos cientos hasta unos pocos miles de tokens extra por turno, así que **no lo habilites para cada solicitud** — resérvalo para tareas en las que, de otro modo, le pedirías a un modelo más pequeño que "piense paso a paso". Un patrón razonable es mantener `instant` como predeterminado y escalar solo a `deep` para pasos de planificación de tool-calls o síntesis de la respuesta final.

{% hint style="warning" %}
**Muestreo sugerido por el proveedor.** Mistral recomienda `temperature=0.15` para `instant` y `temperature=0.7` con `top_p=0.95` para `deep` en modo. El muestreo con temperatura cero tiende a truncar las trazas de razonamiento prematuramente.
{% endhint %}

## Elige tu implementación

Tres configuraciones realistas en el marketplace de Clore.ai. Elige primero por presupuesto de VRAM y después por rendimiento.

| Configuración                                                                                                       | Precisión           | VRAM total | Contexto (práctico) | Rendimiento    | Nivel recomendado de Clore              | Notas                                                            |
| ------------------------------------------------------------------------------------------------------------------- | ------------------- | ---------- | ------------------- | -------------- | --------------------------------------- | ---------------------------------------------------------------- |
| 1× H100 80 GB                                                                                                       | Q4 GGUF (llama.cpp) | 80 GB      | 32K–64K             | \~50–70 tok/s  | Una sola GPU, evaluación/desarrollo     | Cuantización agresiva; se pierde algo de calidad en código largo |
| 4× [H100](https://clore.ai/rent-h100.html?utm_source=docs\&utm_medium=guide\&utm_campaign=mistral-medium-35) 80 GB  | FP8 (vLLM)          | 320 GB     | 256K completo       | \~80–140 tok/s | **Punto óptimo para producción**        | TP=4, mejor tok/$ para tráfico sostenido                         |
| 2× [H200](https://clore.ai/rent-h200.html?utm_source=docs\&utm_medium=guide\&utm_campaign=mistral-medium-35) 141 GB | FP8 o BF16          | 282 GB     | 256K completo       | \~90–130 tok/s | Alto contexto, menos GPUs que gestionar | Topología más simple, margen para la caché KV en 256K            |

{% hint style="success" %}
**Elección predeterminada:** **4× H100 80 GB FP8** vía vLLM. Obtienes el contexto completo de 256K, \~100 tok/s sostenidos, API compatible con OpenAI y escalado tensorial limpio — por un costo diario aproximado al de un único asiento de uso intensivo de Claude Opus.
{% endhint %}

## Requisitos del servidor

| Componente         | Mínimo (Q4, una sola GPU)   | Recomendado (FP8, 4× H100)                | Alto contexto (2× H200) |
| ------------------ | --------------------------- | ----------------------------------------- | ----------------------- |
| VRAM de la GPU     | 80 GB (1× H100)             | 4× 80 GB = 320 GB                         | 2× 141 GB = 282 GB      |
| RAM del sistema    | 128 GB                      | 256 GB                                    | 256 GB                  |
| Disco (NVMe)       | 200 GB                      | 400 GB                                    | 400 GB                  |
| Red                | 1 Gbps+ para descarga de HF | 1 Gbps+                                   | 1 Gbps+                 |
| CUDA               | 12.4+                       | 12.4+                                     | 12.6+                   |
| Controlador        | ≥ 555                       | ≥ 555                                     | ≥ 555                   |
| Tiempo de arranque | 3–6 min (descarga en frío)  | 6–12 min (descarga en frío, 4 fragmentos) | 5–10 min                |

El primer arranque en frío está dominado por la descarga de HuggingFace — los pesos FP8 pesan aproximadamente **128 GB**, BF16 más cerca de **256 GB**. Monta un volumen persistente en `/root/.cache/huggingface` para que solo pagues ese costo de ancho de banda una vez por servidor.

## Despliegue rápido en CLORE.AI

La ruta más rápida es la imagen oficial `vllm/vllm-openai` con paralelismo tensorial ajustado al número de tus GPUs. El ejemplo siguiente asume una instancia 4× H100.

**Imagen de Docker:**

```
vllm/vllm-openai:latest
```

**Puertos:**

```
22/tcp
8000/http
```

**Comando de inicio (4× H100, FP8):**

```bash
vllm serve mistralai/Mistral-Medium-3.5-FP8 \
    --tensor-parallel-size 4 \
    --max-model-len 65536 \
    --gpu-memory-utilization 0.90 \
    --enable-chunked-prefill \
    --enable-auto-tool-choice \
    --tool-call-parser mistral \
    --reasoning-parser mistral \
    --tokenizer-mode mistral \
    --config-format mistral \
    --load-format mistral \
    --served-model-name mistral-medium-3.5 \
    --host 0.0.0.0 \
    --port 8000
```

**Alternativa — 2× H200 BF16:**

```bash
vllm serve mistralai/Mistral-Medium-3.5 \
    --tensor-parallel-size 2 \
    --max-model-len 131072 \
    --gpu-memory-utilization 0.92 \
    --enable-chunked-prefill \
    --enable-auto-tool-choice \
    --tool-call-parser mistral \
    --reasoning-parser mistral \
    --tokenizer-mode mistral \
    --config-format mistral \
    --load-format mistral \
    --served-model-name mistral-medium-3.5 \
    --host 0.0.0.0 \
    --port 8000
```

{% hint style="info" %}
Empieza con `--max-model-len 65536` incluso en hardware que podría admitir más. La memoria de la caché KV crece linealmente con el contexto, y la mayoría de las cargas de trabajo nunca alcanzan 256K. Auméntalo una vez que hayas confirmado la mezcla de solicitudes.
{% endhint %}

**Alternativa con SGLang** (a menudo más rápida en Hopper para prellenados largos):

```bash
python3 -m sglang.launch_server \
    --model-path mistralai/Mistral-Medium-3.5-FP8 \
    --tp-size 4 \
    --tool-call-parser mistral \
    --reasoning-parser mistral \
    --mem-fraction-static 0.88 \
    --context-length 65536 \
    --served-model-name mistral-medium-3.5 \
    --host 0.0.0.0 \
    --port 8000
```

## Ejemplos de uso

Después del despliegue, encuentra tu `http_pub` URL en **Mis pedidos** en Clore.ai (p. ej. `abc123.clorecloud.net`). Reemplaza `localhost:8000` con `https://YOUR_HTTP_PUB_URL` en los ejemplos siguientes cuando llames desde fuera del servidor.

### 1. Chat — Modo instantáneo (predeterminado)

Respuesta de baja latencia, sin traza de razonamiento visible. Bueno para interfaces de chat, autocompletado, clasificación.

```bash
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistral-medium-3.5",
    "messages": [
      {"role": "system", "content": "You are a senior backend engineer."},
      {"role": "user", "content": "Write a Go HTTP middleware that rate-limits per API key with a token bucket."}
    ],
    "temperature": 0.15,
    "max_tokens": 1024,
    "extra_body": {"reasoning_mode": "instant"}
  }'
```

### 2. Chat — Modo profundo (interruptor de razonamiento)

Habilita la `<think>` traza antes de la respuesta final. Úsalo para depuración compleja, planificación y matemáticas.

```bash
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistral-medium-3.5",
    "messages": [
      {"role": "user", "content": "A user reports our payment webhook fires twice for 1% of orders. Walk through the most likely root causes in order of probability and propose a diagnostic plan."}
    ],
    "temperature": 0.7,
    "top_p": 0.95,
    "max_tokens": 4096,
    "extra_body": {"reasoning_mode": "deep"}
  }'
```

La respuesta incluirá un campo `reasoning_content` (vLLM analiza el `<think>...</think>` tramo fuera del mensaje visible) junto con `content`. Elimina o muestra la traza según tu producto.

### 3. Python — Cliente compatible con OpenAI

```python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-needed"
)

# Modo instantáneo — chat
response = client.chat.completions.create(
    model="mistral-medium-3.5",
    messages=[
        {"role": "system", "content": "You are a helpful coding assistant."},
        {"role": "user", "content": "Refactor this Python function for readability."}
    ],
    temperature=0.15,
    max_tokens=1024,
    extra_body={"reasoning_mode": "instant"}
)
print(response.choices[0].message.content)

# Modo profundo — paso de planificación
plan = client.chat.completions.create(
    model="mistral-medium-3.5",
    messages=[
        {"role": "user", "content": "Plan a migration from MongoDB to PostgreSQL for a 2TB orders table with zero downtime."}
    ],
    temperature=0.7,
    max_tokens=4096,
    extra_body={"reasoning_mode": "deep"}
)

msg = plan.choices[0].message
print("PENSANDO:\n", getattr(msg, "reasoning_content", ""))
print("\nRESPUESTA:\n", msg.content)
```

### 4. Salidas estructuradas — Esquema JSON

Medium 3.5 admite decodificación guiada por esquema JSON mediante `response_format`de vLLM. Útil cuando el consumidor downstream es un parser, no un humano.

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="x")

schema = {
    "type": "object",
    "properties": {
        "severity": {"type": "string", "enum": ["low", "medium", "high", "critical"]},
        "categories": {
            "type": "array",
            "items": {"type": "string", "enum": ["auth", "payments", "db", "ui", "infra"]}
        },
        "summary": {"type": "string", "maxLength": 240},
        "next_action": {"type": "string"}
    },
    "required": ["severity", "categories", "summary", "next_action"],
    "additionalProperties": False
}

response = client.chat.completions.create(
    model="mistral-medium-3.5",
    messages=[
        {"role": "system", "content": "Classify the incoming bug report. Return strict JSON."},
        {"role": "user", "content": "Login fails for users with apostrophes in their email, returning 500 from /webapi/login."}
    ],
    temperature=0.0,
    response_format={
        "type": "json_schema",
        "json_schema": {"name": "triage", "schema": schema, "strict": True}
    },
    extra_body={"reasoning_mode": "instant"}
)

import json
print(json.loads(response.choices[0].message.content))
```

### 5. Llamada a funciones

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="x")

tools = [{
    "type": "function",
    "function": {
        "name": "search_orders",
        "description": "Search the orders database by user ID and optional date range",
        "parameters": {
            "type": "object",
            "properties": {
                "user_id": {"type": "string"},
                "start_date": {"type": "string", "format": "date"},
                "end_date": {"type": "string", "format": "date"}
            },
            "required": ["user_id"]
        }
    }
}]

response = client.chat.completions.create(
    model="mistral-medium-3.5",
    messages=[{"role": "user", "content": "Find all orders for user u_4821 in April 2026."}],
    tools=tools,
    tool_choice="auto",
    temperature=0.1
)

for call in response.choices[0].message.tool_calls or []:
    print(call.function.name, call.function.arguments)
```

## Consejos de rendimiento

1. **Prefiere el checkpoint FP8 en Hopper.** `Mistral-Medium-3.5-FP8` es la compilación FP8 proporcionada por el proveedor y es aproximadamente 2× más ligera que BF16 con una pérdida de calidad despreciable en hardware de clase Hopper. Es la opción predeterminada correcta tanto para 4× H100 como para 2× H200.
2. **El paralelismo tensorial = número de GPU.** Para 4× H100 usa `--tensor-parallel-size 4`; para 2× H200 usa `--tensor-parallel-size 2`. El paralelismo de pipeline en un solo nodo normalmente perjudica el rendimiento en un modelo denso de 128B.
3. **Limita `max-model-len` a lo que realmente usas.** La caché KV a 256K es enorme — una sola secuencia con contexto completo puede consumir 30–50 GB. Establece `--max-model-len 65536` (o 32768) a menos que tengas una necesidad verificada de más, y súbelo solo después de perfilar.
4. **Habilita el prellenado por bloques.** `--enable-chunked-prefill` mantiene fluyendo los tokens de decodificación mientras los prompts grandes aún se están procesando. Para prompts de más de 100K, esta es la diferencia entre "responsivo" y "agotó el tiempo".
5. **Cacha los pesos.** Monta un volumen de Docker en `/root/.cache/huggingface` y reutilízalo entre reinicios. Volver a descargar 128 GB en cada arranque en frío es la causa más común de "vLLM parece lento al iniciar".
6. **Cuantización de la caché KV para margen adicional.** En 4× H100 puedes exprimir más sesiones concurrentes con `--kv-cache-dtype fp8`. El proveedor informa una calidad casi sin pérdidas; verifícalo en tu conjunto de evaluación antes de activarlo en producción.
7. **No uses `deep` modo para cada solicitud.** Las trazas de razonamiento cuestan tokens reales y latencia real. Enruta por tipo de tarea: la clasificación, el autocompletado y la generación de argumentos para herramientas permanecen en `instant`; la planificación y la verificación se escalan a `deep`.
8. **La decodificación especulativa ayuda.** vLLM y SGLang admiten decodificación especulativa con un modelo borrador (por ejemplo, con un borrador Ministral 3B). En completaciones largas de código, normalmente esto aporta entre 1.3 y 1.7× de rendimiento sin costo de calidad.

## Benchmarks

{% hint style="warning" %}
**Números publicados por el proveedor — verifícalos independientemente.** La tabla siguiente proviene del anuncio de Mistral AI del 29 de abril de 2026. Las reproducciones independientes de terceros (LMSys, EQ-Bench, el ranking de SWE-Bench) todavía están llegando. Tómalo como orientativo, no como autoridad definitiva.
{% endhint %}

| Benchmark                         | Mistral Medium 3.5 (proveedor) | Puntos de referencia (citados por el proveedor) |
| --------------------------------- | ------------------------------ | ----------------------------------------------- |
| MMLU-Pro                          | \~78%                          | Llama 4 Maverick \~76%, GPT-5.4 \~81%           |
| HumanEval                         | \~92%                          | Codestral 25.01 \~88%, GLM-5.1 \~94%            |
| LiveCodeBench (abr. 2026)         | \~68%                          | GLM-5.1 \~72%, Llama 4 Maverick \~64%           |
| AIME 2025 (modo profundo)         | \~62%                          | GPT-5.4 \~73%, GLM-5.1 \~58%                    |
| GPQA Diamond (modo profundo)      | \~59%                          | Claude Opus 4.6 \~63%, GLM-5.1 \~57%            |
| Recuerdo de contexto largo (128K) | \~95%                          | Llama 4 Maverick \~93%                          |

La posición que Mistral está apuntando: **aproximadamente nivel Llama 4 Maverick / GLM-5.1 en tareas generales, brecha de código más reducida, interruptor de razonamiento distinto**. No se presenta como un competidor de GPT-5.4 / Claude Opus 4.6.

## Solución de problemas

| Problema                                                          | Solución                                                                                                                                                                         |
| ----------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `CUDA sin memoria` al cargar (4× H100)                            | Probablemente estás cargando BF16 por error. Usa el checkpoint FP8 (`Mistral-Medium-3.5-FP8`) o baja a `--max-model-len 32768`.                                                  |
| `CUDA sin memoria` a mitad de solicitud con contexto de 256K      | La caché KV explotó. Reduce `--max-model-len`, habilita `--kv-cache-dtype fp8`, o limita `--max-num-seqs` (prueba 8).                                                            |
| El modo profundo produce `reasoning_content`                      | vacío. Confirma `--reasoning-parser mistral` está establecido en vLLM y que `temperature ≥ 0.5`. El muestreo con temperatura cero trunca la traza.                               |
| Tiempo lento hasta el primer token en modo profundo               | Se espera — el modo profundo emite un `<think>` tramo antes de cualquier salida visible. Haz streaming al cliente con `stream=true` y muestra un estado de interfaz "pensando…". |
| `403 Prohibido` desde la descarga de HuggingFace                  | Mistral Medium 3.5 está **restringido**. Acepta la MRL en la tarjeta del modelo y establece `HF_TOKEN` en el entorno del contenedor.                                             |
| `tokenizer_mode mistral` errores                                  | Las tres banderas son obligatorias juntas: `--tokenizer-mode mistral --config-format mistral --load-format mistral`.                                                             |
| Las llamadas a herramientas se descartan silenciosamente          | Establece ambas `--enable-auto-tool-choice` y `--tool-call-parser mistral`. Sin el parser, vLLM devuelve los argumentos de la herramienta como texto plano.                      |
| El rendimiento se desploma más allá de \~32 sesiones concurrentes | Has alcanzado la expulsión de la caché KV. Reduce `--max-model-len`, aumenta `--gpu-memory-utilization` a 0.92, o escala a una segunda réplica.                                  |
| Error de licencia que bloquea el uso comercial                    | MRL es solo para investigación. Contacta con ventas de Mistral para obtener la licencia comercial antes de atender a usuarios de pago.                                           |

## Preguntas frecuentes

**P: Mistral Medium 3.5 vs Llama 4 Maverick — ¿cuál debería elegir?**

Ambos están en una clase de peso similar (Maverick es MoE con 17B activos de 400B totales; Medium 3.5 es denso de 128B). Elige **Medium 3.5** si quieres VRAM/latencia predecibles, el interruptor de razonamiento de doble modo en un solo checkpoint y mejor rendimiento en código. Elige **Llama 4 Maverick** si necesitas una licencia permisiva para uso comercial sin restricciones (Llama 4 tiene licencia comunitaria, Medium 3.5 necesita la licencia comercial de Mistral para producción) o si quieres el menor costo de inferencia por token que el MoE te aporta por solicitud.

**P: ¿Cómo habilito el modo de razonamiento?**

Pasa `extra_body={"reasoning_mode": "deep"}` en el cliente Python compatible con OpenAI, o incluye `"reasoning_mode": "deep"` en el nivel superior del cuerpo JSON de tu HTTP. El valor predeterminado es `"instant"`. En el lado del servidor, asegúrate de que vLLM se haya iniciado con `--reasoning-parser mistral` para que el `<think>` tramo se analice en el `reasoning_content` campo en lugar de filtrarse a `content`.

**P: ¿Por qué 4× H100 en lugar de 2× H100?**

Los pesos FP8 son de \~128 GB antes de la caché KV. 2× H100 80 GB te dan 160 GB en total — suficiente para cargar los pesos pero con casi nada de margen para la caché KV, activaciones o incluso una ventana de contexto moderada. En la práctica, 2× H100 se quedan sin memoria inmediatamente más allá de 8K de contexto. **4× H100 es el mínimo para una implementación utilizable con capacidad de 256K**; 2× H200 (282 GB) es la alternativa si prefieres gestionar menos GPUs a un coste por GPU ligeramente mayor.

**P: ¿Puedo usar Mistral Medium 3.5 comercialmente?**

La Licencia de Investigación de Mistral (MRL) predeterminada permite investigación y evaluación interna pero **no** producción comercial. Para despliegues orientados a clientes de pago necesitas la **Licencia Comercial de Mistral** — contacta con ventas de Mistral. Esta es la misma restricción que se aplicaba antes a Medium 3 y Codestral. Si la licencia favorable al uso comercial es un requisito innegociable, mira [Mistral Small 3.1](/guides/guides_v2-es/modelos-de-lenguaje/mistral-small.md) (Apache 2.0) o [Llama 4](/guides/guides_v2-es/modelos-de-lenguaje/llama4.md) (licencia comunitaria de Llama).

**P: ¿Medium 3.5 admite visión o audio?**

No. Medium 3.5 es solo texto. Para Mistral multimodal, usa [Mistral Large 3](/guides/guides_v2-es/modelos-de-lenguaje/mistral-large3.md), que incluye un codificador visual de 2.5B. Para otras opciones multimodales en Clore.ai, consulta Qwen3.5-Omni o Gemma 3.

## Guías relacionadas

* [Mistral Large 3](/guides/guides_v2-es/modelos-de-lenguaje/mistral-large3.md) — modelo multimodal frontera MoE de 675B, Apache 2.0, cuando necesitas visión y máxima calidad
* [Mistral y Mixtral](/guides/guides_v2-es/modelos-de-lenguaje/mistral-mixtral.md) — Mistral 7B y Mixtral 8x7B/8x22B antiguos para implementaciones con una sola GPU
* [vLLM](/guides/guides_v2-es/modelos-de-lenguaje/vllm.md) — marco de servicio en producción, el backend recomendado para Medium 3.5
* [Llama 4](/guides/guides_v2-es/modelos-de-lenguaje/llama4.md) — el par con pesos abiertos más cercano a esta escala, alternativa con licencia permisiva

### Enlaces externos

* [Mistral Medium 3.5 en HuggingFace](https://huggingface.co/mistralai/Mistral-Medium-3.5)
* [Checkpoint FP8 de Mistral Medium 3.5](https://huggingface.co/mistralai/Mistral-Medium-3.5-FP8)
* [Anuncio de Mistral AI (29 de abril de 2026)](https://mistral.ai/news/mistral-medium-3-5)
* [Licencia de Investigación de Mistral](https://mistral.ai/licenses/MRL-0.1.md)
* [Documentación de vLLM](https://docs.vllm.ai)
* [Repositorio de SGLang](https://github.com/sgl-project/sglang)
* [Marketplace de Clore.ai](https://clore.ai/marketplace) — alquila H100 / H200 desde 0,50 USD/día


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mistral-medium35.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.