> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/language-models/minimax-m27.md).

# MiniMax M2.7 (229B MoE Coding)

{% hint style="info" %}
**स्थिति (अप्रैल 2026):** MiniMax M2.7 को HuggingFace पर प्रकाशित किया गया था **9 अप्रैल, 2026** MiniMaxAI द्वारा और पहुँचा **तीन हफ्तों में 496K डाउनलोड** — अपनाने के आधार पर, यह हमारे अप्रैल रिफ्रेश का सबसे बड़ा ओपन-वेट रिलीज़ है। वेट्स यहाँ उपलब्ध हैं [huggingface.co/MiniMaxAI/MiniMax-M2.7](https://huggingface.co/MiniMaxAI/MiniMax-M2.7) के अंतर्गत **कस्टम MiniMax लाइसेंस** (`लाइसेंस: अन्य`)। यह है **नहीं** Apache/MIT — पढ़ें [LICENSE](https://huggingface.co/MiniMaxAI/MiniMax-M2.7/blob/main/LICENSE) किसी भी व्यावसायिक तैनाती से पहले।
{% endhint %}

{% hint style="warning" %}
**सुधार:** हमारे मॉडल इंडेक्स के पहले के संस्करणों में M2.7 को एक मालिकाना API-ओनली मॉडल के रूप में सूचीबद्ध किया गया था। 9 अप्रैल, 2026 तक यह गलत था — वेट्स सार्वजनिक हैं। यह गाइड उस सूची को प्रतिस्थापित करता है।
{% endhint %}

MiniMax M2.7 एक **229-बिलियन पैरामीटर Mixture-of-Experts** मॉडल (256 एक्सपर्ट, प्रति टोकन 8 सक्रिय) है और MiniMax के M2 परिवार की नवीनतम प्रविष्टि है — एक लाइन जो **स्वयं-विकसित / RL-चालित पोस्ट-ट्रेनिंग** और **एजेंटिक कोडिंग** वर्कलोड के इर्द-गिर्द बनाई गई है। 2.7 रिलीज़ MiniMax के होस्टेड कोडिंग एजेंट का सार्वजनिक, स्व-होस्ट करने योग्य समकक्ष है और MiniMax इसे एजेंटिक बेंचमार्क्स पर Claude Sonnet 4.5 के बराबर प्रतिस्पर्धी, जबकि उनमें से कुछ पर Claude Opus 4.6 के क्षेत्र के क़रीब स्थित बताता है।

रोचक आर्किटेक्चरल विवरण है **Interleaved Thinking** (M2.1 में प्रस्तुत और 2.5/2.7 के माध्यम से परिष्कृत): मॉडल `<think>` रिज़निंग ब्लॉक्स को मल्टी-टर्न टूल कॉल्स के दौरान सामान्य जनरेशन के साथ बारी-बारी से चलाता है, इसलिए function-call round-trips के बीच चेन-ऑफ-थॉट बना रहता है, बजाय इसके कि हर टर्न पर उसे छोड़ दिया जाए। यही इसे लंबे-क्षेत्र वाले एजेंट्स के लिए दिलचस्प बनाता है — reasoning trace हर बार रीसेट नहीं होता जब आप किसी `tool_use` सीमा पर पहुँचते हैं।

Clore.ai उपयोगकर्ताओं के लिए व्यावहारिक खबर यह है कि M2.7 आधिकारिक रिपो पर एक **FP8 (float8\_e4m3fn) चेकपॉइंट** के साथ आता है। इससे एक सिंगल-नोड डिप्लॉयमेंट निम्न पर पहुँच में आ जाता है **4× H100 80GB** या **2× H200 141GB** — H200 octets या 16-GPU रैक्स की आवश्यकता नहीं। यदि आप [GLM-5.1](/guides/guides_v2-hi/language-models/glm-5-1.md) चला रहे हैं और अपने एजेंट स्टैक में अलग बायस प्रोफ़ाइल वाला दूसरा ओपन-वेट मॉडल चाहते हैं, तो इसे साथ जोड़ने के लिए यही मॉडल है।

### मुख्य विशिष्टताएँ

| गुण                  | मान                                                                                                                                               |
| -------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------- |
| कुल पैरामीटर         | 229B (MoE, 256 एक्सपर्ट)                                                                                                                          |
| प्रति टोकन एक्सपर्ट  | 256 में से 8                                                                                                                                      |
| सक्रिय पैरामीटर      | **आधिकारिक रूप से प्रकाशित नहीं** — मॉडल कार्ड देखें। M2 परिवार ऐतिहासिक रूप से \~10B सक्रिय; सार्वजनिक रूप से उद्धृत करने से पहले सत्यापित करें। |
| हिडन साइज / लेयर्स   | 3,072 / 62                                                                                                                                        |
| अटेंशन               | 48 हेड, 8 KV (GQA)                                                                                                                                |
| कॉन्टेक्स्ट विंडो    | 204,800 टोकन (200K)                                                                                                                               |
| टेंसर प्रकार         | F32, BF16, F8\_E4M3                                                                                                                               |
| MTP                  | मल्टी-टोकन प्रेडिक्शन सक्षम (3 MTP मॉड्यूल)                                                                                                       |
| लाइसेंस              | **कस्टम MiniMax — डिफ़ॉल्ट रूप से गैर-व्यावसायिक**                                                                                                |
| रिलीज़ तिथि          | 9 अप्रैल, 2026                                                                                                                                    |
| HF डाउनलोड (3 हफ्ते) | \~496K                                                                                                                                            |
| अनुशंसित सैंपलिंग    | `temperature=1.0`, `top_p=0.95`, `top_k=40`                                                                                                       |
| प्राथमिक टूलिंग      | vLLM, SGLang, Transformers, KTransformers, MLX-LM                                                                                                 |

### MiniMax M2.7 क्यों?

* **229B पर ओपन वेट्स** — सबसे बड़ा "वास्तविक" ओपन-वेट कोडिंग मॉडल जो FP8 में अभी भी एक सिंगल 4×H100 नोड पर फिट बैठता है
* **Interleaved Thinking** — `<think>` ब्लॉक्स टूल-कॉल टर्न्स के बीच बने रहते हैं, जो SWE-स्टाइल एजेंट्स के लिए वास्तव में उपयोगी है
* **बहु-भाषा कोडिंग फोकस** — MiniMax Rust, Go, Java, Kotlin, Swift और TypeScript के लिए मज़बूत प्रदर्शन को बाज़ार में पेश करता है, सिर्फ Python नहीं
* **अडॉप्शन संकेत** — तीन हफ्तों में 496K डाउनलोड किसी भी अप्रैल 2026 ओपन-वेट रिलीज़ के लिए, जिसे हमने ट्रैक किया है, सबसे मज़बूत कम्युनिटी पिकअप है
* **MTP सपोर्ट** — Multi-Token Prediction मॉड्यूल्स के माध्यम से speculative decoding बिल्ट-इन है, जो H100/H200 पर वास्तविक थ्रूपुट में बदलता है
* **होस्टेड फॉलबैक** — यदि आपका वर्कलोड एक सिंगल नोड से बड़ा हो जाता है, तो MiniMax का होस्टेड एंडपॉइंट मौजूद है; आर्किटेक्चर तय करते समय आपको चुनना नहीं पड़ता

***

## आवश्यकताएँ

{% hint style="warning" %}
**229B अभी भी 229B है।** BF16 वेट्स \~460GB हैं। FP8 चेकपॉइंट लगभग आधा है — \~230GB — यही इसे सिंगल-नोड डिप्लॉयमेंट के लिए संभव बनाता है। INT4 कम्युनिटी क्वांट्स इसे \~120GB से नीचे ले आती हैं, लेकिन आधिकारिक रूप से समर्थित नहीं हैं।
{% endhint %}

| घटक      | हॉबी (INT4 GGUF, ऑफ़लोड)        | अनुशंसित (FP8 सिंगल-नोड)          | पूर्ण BF16                   |
| -------- | ------------------------------- | --------------------------------- | ---------------------------- |
| GPU VRAM | 24–48GB GPU + 128GB+ RAM ऑफ़लोड | 4× H100 80GB **या** 2× H200 141GB | 8× H100 80GB / 4× H200 141GB |
| कुल VRAM | \~48GB GPU + ऑफ़लोड             | 320GB / 282GB                     | 640GB / 564GB                |
| RAM      | 128GB                           | 256GB                             | 512GB                        |
| डिस्क    | 200GB NVMe                      | 400GB NVMe                        | 600GB NVMe                   |
| CUDA     | 12.0+                           | 12.4+                             | 12.4+                        |

**Clore.ai चयन:** पर FP8 चेकपॉइंट **2× H200** सबसे साफ़ डिप्लॉयमेंट लक्ष्य है — न्यूनतम tensor-parallel splits, कम NCCL hops, और 200K कॉन्टेक्स्ट के लिए गणित बस काम करता है। **4× H100** यदि H200 स्टॉक कम है, तो यह सस्ता विकल्प है।

***

## विकल्प A — Ollama / GGUF (Quantized)

{% hint style="warning" %}
**केवल कम्युनिटी क्वांट्स।** MiniMax M2.7 के लिए आधिकारिक GGUF वेट्स प्रकाशित नहीं करता। कम्युनिटी Q4/Q5 बिल्ड आमतौर पर रिलीज़ के 1–2 हफ्ते बाद दिखाई देते हैं — खोजें [huggingface.co/models?search=minimax-m2.7+gguf](https://huggingface.co/models?search=minimax-m2.7+gguf) और अपलोडर को सत्यापित करें। Q4 से नीचे MoE क्वांट्स पर गुणवत्ता बदलती रहती है।
{% endhint %}

```bash
# एक बार जब कम्युनिटी Q4_K_M बिल्ड उपलब्ध हो जाए (पहले HuggingFace देखें)
docker exec ollama ollama pull minimax-m2.7:q4_K_M
docker exec ollama ollama run minimax-m2.7:q4_K_M

# या डाउनलोड किए गए GGUF पर सीधे llama.cpp के साथ
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/minimax-m2.7-q4_k_m.gguf \
  --n-gpu-layers 80 --ctx-size 32768 \
  --temp 1.0 --top-p 0.95 --top-k 40 \
  --port 8080 --host 0.0.0.0
```

केवल हॉबी उपयोग के लिए। वास्तविक वर्कलोड के लिए FP8 चेकपॉइंट के साथ vLLM या SGLang का उपयोग करें।

***

## विकल्प B — vLLM (प्रोडक्शन API, अनुशंसित)

vLLM पहला-श्रेणी का सर्विंग लक्ष्य है। आधिकारिक FP8 चेकपॉइंट वही है जिसे आपको लेना चाहिए — लगभग आधी VRAM पर BF16 जैसी ही गुणवत्ता।

### docker-compose.yml — 4× H100 80GB

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model MiniMaxAI/MiniMax-M2.7
      --quantization fp8
      --tensor-parallel-size 4
      --max-model-len 65536
      --gpu-memory-utilization 0.88
      --enable-auto-tool-choice
      --tool-call-parser hermes
      --served-model-name minimax-m2.7
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

### docker-compose.yml — 2× H200 141GB

कम करें `--tensor-parallel-size` को 2 और बढ़ाएँ `--max-model-len` का उपयोग करने के लिए headroom:

```yaml
    command: >
      --model MiniMaxAI/MiniMax-M2.7
      --quantization fp8
      --tensor-parallel-size 2
      --max-model-len 131072
      --gpu-memory-utilization 0.90
      --enable-auto-tool-choice
      --tool-call-parser hermes
      --enable-chunked-prefill
      --served-model-name minimax-m2.7
      --trust-remote-code
```

### स्मोक टेस्ट

```bash
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "minimax-m2.7",
    "messages": [
      {"role": "system", "content": "आप एक वरिष्ठ इंजीनियर हैं। टूल कॉल्स के बीच reasoning करते समय Interleaved Thinking का उपयोग करें।"},
      {"role": "user", "content": "टोकियो cancellation safety के लिए इस Rust async handler का ऑडिट करें: ..."}
    ],
    "max_tokens": 4096,
    "temperature": 1.0,
    "top_p": 0.95
  }'
```

{% hint style="info" %}
**कम न करें `temperature` को 1.0 से नीचे।** MiniMax की अनुशंसित सैंपलिंग है `T=1.0, top_p=0.95, top_k=40`. Greedy decoding चुपचाप तोड़ देता है `<think>` मल्टी-टर्न टूल कॉल्स पर interleaving को।
{% endhint %}

***

## विकल्प C — SGLang

Hopper पर SGLang का MoE scheduler vLLM के साथ प्रतिस्पर्धी है और अक्सर लंबे-कॉन्टेक्स्ट कोडिंग completions पर जीतता है, क्योंकि EAGLE speculative decoding M2.7 के MTP मॉड्यूल्स के साथ स्टैक होता है।

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \
  --model-path MiniMaxAI/MiniMax-M2.7 \
  --quantization fp8 \
  --tp-size 4 \
  --mem-fraction-static 0.88 \
  --context-length 65536 \
  --enable-mixed-chunk \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --served-model-name minimax-m2.7 \
  --trust-remote-code
```

लंबे एजेंट ट्रेसेज़ पर vanilla vLLM की तुलना में \~1.5–2× थ्रूपुट लाभ की अपेक्षा करें। कम करें `--tp-size` को H200 पर 2।

***

## Clore.ai GPU सिफ़ारिशें

| सेटअप                         | VRAM         | अपेक्षित प्रदर्शन                                | Clore.ai लागत    |
| ----------------------------- | ------------ | ------------------------------------------------ | ---------------- |
| 1× RTX 4090 24GB + RAM ऑफ़लोड | 24GB + 128GB | INT4 हॉबी, \~5–10 tok/s                          | \~$1–2/दिन       |
| 4× A100 80GB                  | 320GB        | BF16 शार्डेड, \~15–25 tok/s                      | \~$15–22/दिन     |
| **4× H100 80GB (FP8)**        | **320GB**    | **FP8 प्रोडक्शन, \~40–60 tok/s**                 | **\~$20–28/दिन** |
| **2× H200 141GB (FP8)**       | **282GB**    | **FP8 प्रोडक्शन, \~50–70 tok/s, पूर्ण 200K ctx** | **\~$18–26/दिन** |
| 8× H100 80GB                  | 640GB        | पूर्ण BF16, \~80+ tok/s                          | \~$40–55/दिन     |

{% hint style="success" %}
**सर्वोत्तम मूल्य:** FP8 चेकपॉइंट के साथ 2× H200। 4× H100 के समान थ्रूपुट क्लास, आधे tensor-parallel hops के साथ, बाज़ार में अक्सर प्रति दिन सस्ता, और पूर्ण 200K कॉन्टेक्स्ट के लिए पर्याप्त VRAM headroom बचता है।
{% endhint %}

बॉक्स यहाँ किराए पर लें:

* [**H200 GPU किराए पर लें**](https://clore.ai/rent-h200.html) — 2× H200 FP8 डिप्लॉयमेंट के लिए अनुशंसित
* [**H100 GPU किराए पर लें**](https://clore.ai/rent-h100.html) — 4× H100 FP8 डिप्लॉयमेंट के लिए
* [**A100 80GB किराए पर लें**](https://clore.ai/rent-a100-80gb.html) — BF16 मल्टी-GPU फॉलबैक
* [**RTX 4090 किराए पर लें**](https://clore.ai/rent-4090.html) — केवल INT4 हॉबी उपयोग
* [**मार्केटप्लेस**](https://clore.ai/marketplace) — पूर्ण इन्वेंटरी, ऑन-डिमांड और स्पॉट बिडिंग

***

## उपयोग के मामले

* **बहु-भाषा SWE एजेंट्स** — Rust, Go, Java, Kotlin, Swift, और TypeScript को Python/JS ही नहीं, बल्कि पहली श्रेणी का व्यवहार मिलता है
* **लंबे-क्षेत्र टूल-कॉलिंग लूप्स** — Interleaved Thinking सैकड़ों `tool_use` round-trips
* **कोडबेस ऑडिट** — 200K कॉन्टेक्स्ट एक मध्यम आकार की सेवा और उसके परीक्षणों को एक ही प्रॉम्प्ट में समाहित कर देता है
* **रिफ़ैक्टर पाइपलाइन्स** — MTP मॉड्यूल्स के माध्यम से कई फ़ाइल संपादनों में निरंतर सटीकता
* **Agent-of-agents orchestration** — M2.7 को planner के रूप में और छोटे मॉडल (Qwen3.5, GLM-4.7-Flash) को worker के रूप में जोड़ें
* **Claude Sonnet/Opus का स्व-होस्टेड विकल्प** गैर-व्यावसायिक कोडिंग शोध के लिए — लेकिन **पहले लाइसेंस पढ़ें**

***

## बेंचमार्क

{% hint style="warning" %}
**विक्रेता-प्रदत्त — स्वतंत्र रूप से सत्यापित करें।** नीचे दिए गए आँकड़े MiniMax के 9 अप्रैल, 2026 रिलीज़ नोट्स से लिए गए हैं। स्वतंत्र पुनरुत्पादन अभी भी आ रहे हैं।
{% endhint %}

| बेंचमार्क        | MiniMax M2.7 | Claude Sonnet 4.5 (vendor ref) | Claude Opus 4.6 (vendor ref) | GPT-5.3-Codex |
| ---------------- | ------------ | ------------------------------ | ---------------------------- | ------------- |
| SWE-Pro          | **56.22%**   | \~55%                          | \~57.3%                      | 56.2%         |
| VIBE-Pro         | **55.6%**    | —                              | \~57%                        | —             |
| Terminal Bench 2 | **57.0%**    | —                              | —                            | —             |
| GDPval-AA (ELO)  | **1495**     | —                              | —                            | —             |

MiniMax की प्रस्तुति: M2.7 उनके लिए महत्वपूर्ण एजेंटिक-कोडिंग सुइट पर Claude Sonnet 4.5 के बराबर है या उससे बेहतर है, और SWE-Pro / VIBE-Pro पर Claude Opus 4.6 से कुछ अंकों के भीतर आता है। इसे एक दिशात्मक संकेत के रूप में लें, अंतिम रैंकिंग के रूप में नहीं — बंद फ्रंटियर मॉडलों के साथ अंतर हर रिलीज़ के साथ कम होता जा रहा है।

***

## MiniMax M2 परिवार

| संस्करण  | रिलीज़             | आर्किटेक्चरल फोकस                                | इसके लिए अनुशंसित                               |
| -------- | ------------------ | ------------------------------------------------ | ----------------------------------------------- |
| M2       | अक्तूबर 2025       | प्रारंभिक 229B MoE रिलीज़, RL-ट्यून्ड कोडिंग     | संदर्भ / ऐतिहासिक                               |
| M2.1     | दिसंबर 2025        | **Interleaved Thinking** प्रस्तुत किया           | एजेंट्स के लिए चलाने योग्य सबसे शुरुआती संस्करण |
| M2.5     | फ़रवरी 2026        | स्वयं-विकसित RL पोस्ट-ट्रेनिंग, लंबा कॉन्टेक्स्ट | यदि डिस्क सीमित हो तो एक ठोस कोडिंग मॉडल        |
| **M2.7** | **9 अप्रैल, 2026** | **परिष्कृत बहु-भाषा कोडिंग, MTP, FP8 आधिकारिक**  | **डिफ़ॉल्ट विकल्प — यही उपयोग करें**            |

यदि आप बिल्कुल शुरुआत कर रहे हैं, तो पहले के संस्करण छोड़ें और सीधे M2.7 पर जाएँ। आर्किटेक्चरल अंतर मिलकर प्रभाव डालते हैं और FP8 ergonomics स्पष्ट रूप से बेहतर हैं।

***

## समस्या-निवारण

| समस्या                          | समाधान                                                                                                                                    |
| ------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` FP8 लोड पर   | \~230GB VRAM की आवश्यकता है। 4× H100 80GB या 2× H200 141GB का उपयोग करें। पहले `--max-model-len` को 32768 पर घटाएँ।                       |
| धीमा HuggingFace डाउनलोड        | `huggingface-cli download MiniMaxAI/MiniMax-M2.7 --local-dir ./weights --resume-download`. \~230GB FP8 / \~460GB BF16 की अपेक्षा करें।    |
| टूल कॉल्स चुपचाप छोड़ दी गईं    | सेट करें `--enable-auto-tool-choice --tool-call-parser hermes` vLLM में। M2.7 Hermes-शैली के tool tags का उपयोग करता है।                  |
| `<think>` ब्लॉक्स खाली या विकृत | सैंपलिंग होना चाहिए `temperature=1.0, top_p=0.95, top_k=40`. Greedy decoding Interleaved Thinking को तोड़ देता है।                        |
| MTP त्रुटियाँ / shape mismatch  | vLLM को नवीनतम stable पर अपडेट करें; MTP सपोर्ट देर से आया था और पुराने बिल्ड्स में मॉड्यूल्स शामिल नहीं होते।                            |
| H100 पर 200K कॉन्टेक्स्ट OOMs   | उपयोग करें `--enable-chunked-prefill` और शुरू करें `--max-model-len 65536`. पूर्ण 200K के लिए व्यावहारिक रूप से H200 की आवश्यकता होती है। |
| लाइसेंस को लेकर भ्रम            | डिफ़ॉल्ट = गैर-व्यावसायिक। ईमेल करें `api@minimax.io` विषय "M2.7 licensing" के साथ, किसी भी सशुल्क उत्पाद उपयोग से पहले।                  |

***

## अगले कदम

* **ऑडियो सहोदर:** [MiniMax Speech](/guides/guides_v2-hi/audio-and-voice/minimax-speech.md) — वही विक्रेता, ऑडियो/वॉइस जनरेशन
* **ओपन-लाइसेंस विकल्प:** [GLM-5.1](/guides/guides_v2-hi/language-models/glm-5-1.md) — 744B / 40B सक्रिय, MIT लाइसेंस, शीर्ष SWE-Bench Pro
* **विशाल-कॉन्टेक्स्ट विकल्प:** [DeepSeek V4](/guides/guides_v2-hi/language-models/deepseek-v4.md) — 1M कॉन्टेक्स्ट, मल्टीमॉडल
* **सस्ता एजेंटिक विकल्प:** [GLM-4.7 Flash](/guides/guides_v2-hi/language-models/glm-47-flash.md) — एकल H100 पर फिट, MIT
* **Clore.ai मार्केटप्लेस:** [clore.ai/marketplace](https://clore.ai/marketplace) — स्पॉट मार्केट से H100/H200/A100

### लिंक

* [HuggingFace पर MiniMax M2.7](https://huggingface.co/MiniMaxAI/MiniMax-M2.7)
* [MiniMax M2.7 LICENSE](https://huggingface.co/MiniMaxAI/MiniMax-M2.7/blob/main/LICENSE) — व्यावसायिक उपयोग से पहले पढ़ें
* [MiniMax प्लेटफ़ॉर्म](https://www.minimax.io)
* [vLLM दस्तावेज़](https://docs.vllm.ai)
* [SGLang रिपो](https://github.com/sgl-project/sglang)
* [KTransformers](https://github.com/kvcache-ai/ktransformers)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/language-models/minimax-m27.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.