# MiMo-V2.5-Pro (Xiaomi 1T MoE)

{% hint style="info" %}
**Estado (abril de 2026):** MiMo-V2.5-Pro se lanzó el **27 de abril de 2026** por la división de IA de Xiaomi como el primer modelo de pesos abiertos en su **nivel Pro** — el anterior MiMo-V2-Pro solo estaba disponible por API y no tenía pesos públicos. Los pesos están en [huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro) bajo la **licencia MIT**. La tarjeta del modelo se actualizó por última vez el 28 de abril de 2026, por lo que las herramientas de despliegue, los quants de la comunidad y las reproducciones aún están llegando día a día.
{% endhint %}

MiMo-V2.5-Pro es un **modelo Mixture-of-Experts de 1,02 billones de parámetros** que activa solo **\~42B de parámetros por token**. El equipo MiMo —liderado por la exinvestigadora de DeepSeek **Luo Fuli** — lo diseñó en torno a dos ideas: un **esquema de atención híbrida** que combina Sliding Window Attention (SWA) y Global Attention (GA) en una proporción 6:1 (\~7× de reducción de la caché KV con una ventana de 128 tokens), y **3 módulos ligeros de Multi-Token Prediction (MTP)** que aportan aproximadamente **3× de velocidad de salida** en cargas de trabajo autoregresivas. La arquitectura tiene 70 capas (1 densa + 69 MoE), tamaño oculto 6144, y se entrega de forma nativa en **precisión mixta FP8 E4M3**.

Dos cosas importan para los usuarios de Clore.ai. Primero, este es el **primer lanzamiento de MiMo Pro con pesos públicos**: las variantes Pro anteriores solo existían como una API alojada y como el modelo probado en modo sigiloso "Hunter Alpha" en OpenRouter (cronología de marzo de 2026). Segundo, la **licencia MIT** elimina por completo las restricciones comerciales — afina, redistribuye, ejecútalo como un endpoint de pago, sin salvedades. El anuncio de lanzamiento de Xiaomi afirma que V2.5-Pro **supera a DeepSeek V4 en tareas agenticas**, pero ese benchmark solo fue publicado por el proveedor — aún no hay reproducción de terceros, y no deberías citarlo externamente sin esa salvedad.

### Especificaciones clave

| Propiedad                   | Valor                                                            |
| --------------------------- | ---------------------------------------------------------------- |
| Parámetros totales          | 1,02T (MoE)                                                      |
| Parámetros activos          | \~42B por pasada hacia adelante                                  |
| Ventana de contexto         | 1.000.000 de tokens (1M)                                         |
| Precisión                   | FP8 E4M3 mixta (nativa)                                          |
| Arquitectura                | SWA + GA híbrida (6:1), 70 capas (1 densa + 69 MoE), oculto 6144 |
| Caché KV                    | Ventana deslizante 128, \~7× de reducción frente a GA completa   |
| Decodificación especulativa | 3 módulos MTP ligeros, \~3× de velocidad de salida               |
| Licencia                    | MIT                                                              |
| Fecha de lanzamiento        | 27 de abril de 2026                                              |
| Organización                | Equipo Xiaomi MiMo (XiaomiMiMo en HuggingFace)                   |
| Herramientas principales    | SGLang (soporte de primera clase), vLLM                          |

### ¿Por qué MiMo-V2.5-Pro?

* **Primer MiMo de nivel Pro con pesos abiertos** — el MiMo-V2-Pro predecesor era solo API; esta es la primera vez que los pesos Pro son públicos
* **contexto de 1M tokens** — maneja bases de código completas, rastros largos de agentes o RAG de múltiples documentos sin trocear
* **atención híbrida** — SWA + GA en 6:1 reduce la caché KV \~7× frente a la atención global pura; los contextos largos siguen siendo manejables
* **FP8 nativo** — sin cuantización posterior, los pesos se entregan en FP8 E4M3 directamente desde el proveedor
* **decodificación especulativa MTP** — 3 módulos MTP integrados proporcionan \~3× de rendimiento de decodificación desde el inicio
* **licencia MIT** — sin restricciones comerciales, sin límites de uso
* **42B activos** — pagas el coste de inferencia de 42B densos a pesar del número principal de 1,02T
* **Linaje** — la investigadora principal Luo Fuli estuvo previamente en DeepSeek, y las decisiones arquitectónicas lo demuestran

***

## Requisitos

{% hint style="warning" %}
**Sigue siendo un modelo de 1T.** "42B activos" suena atractivo, pero los pesos completos de 1,02T deben residir en VRAM (o descargarse de forma agresiva). Los pesos FP8 nativos necesitan **\~600GB+ de VRAM** antes de la memoria de activación y la caché KV. Planifica 8×H200 o superior para FP8 con contexto completo.
{% endhint %}

| Componente  | Mínimo (cuantización + descarga, futuro)                 | Recomendado (FP8)    | FP8 completo, 1M ctx    |
| ----------- | -------------------------------------------------------- | -------------------- | ----------------------- |
| VRAM de GPU | \~141GB (Q4 + descarga a RAM, cuando lleguen los quants) | 8× H100 80GB (640GB) | 8× H200 141GB (1,128GB) |
| RAM         | 256GB                                                    | 512GB                | 512GB                   |
| Disco       | 700GB NVMe                                               | 1.5TB NVMe           | 2TB NVMe                |
| CUDA        | 12.4+                                                    | 12.6+                | 12.6+                   |

**Elección de Clore.ai:** Para FP8 completo con margen en el contexto de 1M, **8×H200** es la opción natural — consulta [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html). 8×H100 80GB también ejecuta el checkpoint FP8, pero limitarás `--context-length` a un valor menor (normalmente 256K) para dejar espacio a la caché KV. Para hardware de clase Blackwell consulta [clore.ai/rent-b200.html](https://clore.ai/rent-b200.html).

***

## Opción A — Ollama / GGUF (cuantizado, compilaciones de la comunidad)

{% hint style="warning" %}
**Aviso:** A fecha 28 de abril de 2026 (un día después del lanzamiento) **los quants GGUF de la comunidad para MiMo-V2.5-Pro aún no han sido publicados**. Se espera que aparezcan compilaciones Q4\_K\_M / Q5\_K\_M / Q6\_K dentro de 1–2 semanas en [huggingface.co/models?search=mimo-v2.5-pro+gguf](https://huggingface.co/models?search=mimo-v2.5-pro+gguf). Hasta entonces, FP8 mediante SGLang o vLLM es la ruta soportada.
{% endhint %}

```bash
# Una vez que esté disponible una compilación Q4_K_M
docker exec ollama ollama pull mimo-v2.5-pro:q4_K_M
docker exec ollama ollama run mimo-v2.5-pro:q4_K_M

# O con llama.cpp directamente sobre un archivo GGUF (cuando se publique)
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/mimo-v2.5-pro-q4_k_m.gguf \
  --n-gpu-layers 99 --ctx-size 65536 \
  --port 8080 --host 0.0.0.0
```

***

## Opción B — vLLM (API de producción, recomendada)

vLLM soporta MiMo-V2.5-Pro mediante `--trust-remote-code` (la atención híbrida + los módulos MTP se incluyen como código personalizado en el repositorio). Usa los valores predeterminados de muestreo del proveedor: **temperature 1.0, top\_p 0.95**.

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model XiaomiMiMo/MiMo-V2.5-Pro
      --tensor-parallel-size 8
      --quantization fp8
      --max-model-len 262144
      --gpu-memory-utilization 0.90
      --trust-remote-code
      --served-model-name mimo-v2.5-pro
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Probar la API (muestreo recomendado por el proveedor)
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5-pro",
    "messages": [
      {"role": "system", "content": "Eres un agente autónomo de programación."},
      {"role": "user", "content": "Recorre este monorepo de 30 mil líneas y propone un plan de migración de Express 4 a Fastify 5."}
    ],
    "max_tokens": 8192,
    "temperature": 1.0,
    "top_p": 0.95
  }'
```

{% hint style="info" %}
En 8×H100 80GB, limita `--max-model-len` a 262144 (256K) para dejar margen para activaciones + caché KV. En 8×H200 141GB puedes subir cómodamente a 524288 o más; 1.048.576 (1M completo) es factible, pero espera tiempos largos de prellenado — pruébalo antes de depender de ello.
{% endhint %}

***

## Opción C — SGLang (recomendado para máximo rendimiento)

SGLang es el **objetivo de servicio de primera clase** en la tarjeta del modelo MiMo-V2.5-Pro. El proveedor publica el comando de lanzamiento con **`SGLANG_ENABLE_SPEC_V2=1`** para activar la nueva ruta de decodificación especulativa con MTP, que es donde realmente se materializa la mejora de \~3× en la velocidad de decodificación.

```bash
docker pull lmsysorg/sglang:latest

# Literalmente desde la tarjeta del modelo en HF
SGLANG_ENABLE_SPEC_V2=1 python3 -m sglang.launch_server \
    --model-path XiaomiMiMo/MiMo-V2.5-Pro \
    --trust-remote-code \
    --quantization fp8 \
    --context-length 1048576 \
    --host 0.0.0.0 --port 9001
```

Para una configuración TP multi-GPU en 8×H200, añade `--tp-size 8` y `--mem-fraction-static 0.88`. Confirma con `nvidia-smi` que las 8 tarjetas están ocupadas antes de enviar tráfico real — el contexto de 1M es implacable si una fila se queda sin recursos.

***

## Recomendaciones de GPU en Clore.ai

| Configuración | VRAM    | Rendimiento esperado                                     | Coste en Clore.ai       |
| ------------- | ------- | -------------------------------------------------------- | ----------------------- |
| 4× H100 80GB  | 320GB   | FP8 con descarga intensiva, ctx máx \~64K, \~10–15 tok/s | \~25–35 $/día           |
| 8× H100 80GB  | 640GB   | FP8 completo, ctx máx \~256K, \~30–45 tok/s              | \~45–60 $/día           |
| 8× H200 141GB | 1,128GB | FP8 completo, ctx máx 1M, \~60+ tok/s con MTP            | \~80–110 $/día          |
| 8× B200       | 1,536GB | FP8 completo, ctx máx 1M, el más rápido disponible       | precios del marketplace |

{% hint style="success" %}
**Mejor relación calidad-precio:** 8× H200 141GB en el checkpoint FP8 con `SGLANG_ENABLE_SPEC_V2=1`. Obtienes la ventana de contexto completa de 1M, decodificación especulativa MTP y suficiente margen de caché KV para bucles de agentes reales. Consulta [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html) para ver la disponibilidad en vivo.
{% endhint %}

***

## Casos de uso

* **Agentes de largo recorrido** — el equipo MiMo ajusta explícitamente para llamadas a herramientas sostenidas. El contexto de 1M más la aceleración MTP significa miles de turnos de herramientas sin acrobacias de troceado.
* **Análisis de bases de código completas** — coloca un monorepo de 500K tokens en contexto para planificación de refactorización, auditorías de dependencias o diseño de migración
* **RAG de documentos largos** — libros completos, transcripciones de clientes de varios años o historiales de chat de un año caben en un solo prompt
* **Programación** — la HumanEval+ 75,6% reclamada por el proveedor y la postura agentica lo convierten en candidato para cargas de trabajo autónomas de SWE (combínalo con SWE-agent / OpenHands)
* **Bloc de notas de investigación** — el contexto de 1M tolera el tipo de uso "pega todo el artículo, pega el trabajo previo, pide una síntesis" que los modelos más pequeños recortan

***

## Benchmarks

{% hint style="warning" %}
**Afirmados por el proveedor — aún sin reproducción de terceros.** Todos los números siguientes provienen del anuncio de Xiaomi del 27 de abril de 2026 y de la tarjeta del modelo en HuggingFace. El modelo tiene **dos días de antigüedad** en el momento de escribir esto — las reproducciones independientes en benchmarks agenticos y de contexto largo aún están pendientes. En particular, la afirmación de "supera a DeepSeek V4 en tareas agenticas" procede del propio texto de Xiaomi; trátala como marketing hasta que se reproduzca.
{% endhint %}

| Benchmark                       | MiMo-V2.5-Pro (proveedor) | Notas                                                  |
| ------------------------------- | ------------------------- | ------------------------------------------------------ |
| GSM8K                           | **99.6%**                 | Problemas matemáticos de texto                         |
| HumanEval+                      | 75.6%                     | Programación (ampliada)                                |
| MMLU                            | 89.4%                     | Conocimientos generales                                |
| GraphWalks (1M ctx) BFS         | 0.37                      | Recorrido de grafos de contexto largo                  |
| GraphWalks (1M ctx) Parents     | 0.62                      | Recorrido de grafos de contexto largo                  |
| Tareas agenticas vs DeepSeek V4 | "supera" (proveedor)      | **No verificado — reproducción de terceros pendiente** |

***

## Solución de problemas

| Problema                                   | Solución                                                                                                                                             |
| ------------------------------------------ | ---------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` al cargar               | El FP8 nativo aún necesita \~600GB+ de VRAM. Usa 8× H200 o baja `--context-length` a 65536 en 8× H100.                                               |
| Descarga lenta de HuggingFace              | `huggingface-cli download XiaomiMiMo/MiMo-V2.5-Pro --local-dir ./weights --resume-download`. Espera \~600GB FP8.                                     |
| `--trust-remote-code` rechazado            | La atención híbrida y MTP se entregan como código personalizado en el repositorio. El indicador es **obligatorio** tanto para vLLM como para SGLang. |
| No aparece la aceleración MTP en SGLang    | Confirma `SGLANG_ENABLE_SPEC_V2=1` que está exportado en el mismo shell que `python3 -m sglang.launch_server`. La ruta predeterminada no activa MTP. |
| Traza de razonamiento plana / baja calidad | Usa `temperature=1.0` y `top_p=0.95`. Temperaturas más bajas degradan el comportamiento de razonamiento de MiMo.                                     |
| OOM del contexto de 1M en 8× H100          | 8× H100 80GB no puede albergar la caché KV para 1M tokens. Limita a 256K o cambia a 8× H200.                                                         |
| El prefill tarda minutos                   | Esperable en un contexto de 1M. Usa `--enable-chunked-prefill` (vLLM) o agrupa solicitudes más cortas para cargas interactivas.                      |
| Fallan las descargas GGUF / Ollama         | Los quants de la comunidad no están publicados a fecha 28 de abril de 2026. Espera 1–2 semanas o usa FP8 directamente.                               |

***

## Siguientes pasos

* **Predecesor / modelo hermano:** [MiMo-V2-Flash](/guides/guides_v2-es/modelos-de-lenguaje/mimo-v2-flash.md) — 309B MoE, 15B activos, 32K ctx, más rápido pero más pequeño
* **Rival según el proveedor:** [DeepSeek V4](/guides/guides_v2-es/modelos-de-lenguaje/deepseek-v4.md) — 1M ctx, multimodal, \~1T parámetros (el modelo al que Xiaomi dice que superaron en tareas agenticas)
* **Rival abierto para programación:** [GLM-5.1](/guides/guides_v2-es/modelos-de-lenguaje/glm-5-1.md) — 744B MoE, 40B activos, MIT, actualmente #1 en SWE-Bench Pro
* **Alquileres de H200 en Clore.ai:** [clore.ai/rent-h200.html](https://clore.ai/rent-h200.html) — la mejor opción para MoE de 1T FP8 completo con contexto de 1M
* **Marketplace de Clore.ai:** [clore.ai/marketplace](https://clore.ai/marketplace)

### Enlaces

* [MiMo-V2.5-Pro en HuggingFace](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro)
* [Organización Xiaomi MiMo en HuggingFace](https://huggingface.co/XiaomiMiMo)
* [Repositorio de SGLang](https://github.com/sgl-project/sglang)
* [Documentación de vLLM](https://docs.vllm.ai)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/mimo-v25-pro.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
