Mistral Large 3(675B MoE)

运行 Mistral Large 3 —— 一个 675B MoE 前沿模型,在 Clore.ai GPU 上具有 41B 活跃参数

Mistral Large 3 是 Mistral AI 最强大的开放权重模型,于 2025 年 12 月在 Apache 2.0 许可证发布。它是一个混合专家(MoE)模型,总参数量为 675B,但每个 token 仅激活 41B —— 以远低于稠密 675B 模型的计算量提供前沿级性能。凭借原生多模态支持(文本 + 图像)、256K 上下文窗口和一流的代理能力,它可与 GPT-4o 和 Claude 类模型直接竞争,同时完全可自托管。

HuggingFace: mistralai/Mistral-Large-3-675B-Instruct-2512arrow-up-right Ollama: mistral-large-3:675barrow-up-right 许可: Apache 2.0

主要特性

  • 总计 675B / 每 token 激活 41B 参数 — MoE 效率意味着无需激活所有参数即可获得前沿性能

  • Apache 2.0 许可证 — 完全开放,可用于商业和个人用途,无限制

  • 原生多模态 — 通过 2.5B 的视觉编码器同时理解文本和图像

  • 256K 上下文窗口 — 可处理海量文档、代码库和长会话

  • 一流的代理能力 — 原生函数调用、JSON 模式、工具使用

  • 多种部署选项 — H200/B200 上的 FP8、H100/A100 上的 NVFP4、面向消费级 GPU 的 GGUF 量化

模型架构

组件
详细信息

架构

细粒度混合专家(MoE)

总参数量

675B

激活参数

41B(每 token)

视觉编码器

2.5B 参数

上下文窗口

256K token

训练

3,000× H200 GPU

发布

2025 年 12 月

要求

配置
预算(Q4 GGUF)
标准(NVFP4)
完整版(FP8)

GPU

4× RTX 4090

8× A100 80GB

8× H100/H200

显存

4×24GB(96GB)

8×80GB(640GB)

8×80GB(640GB)

内存

128GB

256GB

256GB

磁盘

400GB

700GB

1.4TB

CUDA

12.0+

12.0+

12.0+

推荐的 Clore.ai 设置:

  • 最佳性价比: 4× RTX 4090(约 $2–8/天)—— 使用 llama.cpp 或 Ollama 运行 Q4 GGUF 量化

  • 生产质量: 8× A100 80GB(约 $16–32/天)—— 通过 vLLM 使用 NVFP4 并支持完整上下文

  • 最高性能: 8× H100(约 $24–48/天)—— FP8,完整 256K 上下文

使用 Ollama 快速入门

在多 GPU Clore.ai 实例上运行 Mistral Large 3 的最快方法:

使用 vLLM 的快速入门(生产)

用于具有 OpenAI 兼容 API 的生产级服务:

使用示例

1. 聊天补全(OpenAI 兼容 API)

一旦 vLLM 运行,使用任何 OpenAI 兼容客户端:

2. 函数调用 / 工具使用

Mistral Large 3 在结构化工具调用方面表现出色:

3. 视觉 — 图像分析

Mistral Large 3 原生理解图像:

给 Clore.ai 用户的提示

  1. 在 A100 上从 NVFP4 开始 — 该 Mistral-Large-3-675B-Instruct-2512-NVFP4 该 checkpoint 专为 A100/H100 节点设计,在内存占用约为 FP8 一半的情况下提供近乎无损的质量。

  2. 使用 Ollama 进行快速实验 — 如果你有 4× RTX 4090 实例,Ollama 会自动处理 GGUF 量化。非常适合在投入 vLLM 生产部署前进行测试。

  3. 安全地暴露 API — 在 Clore.ai 实例上运行 vLLM 时,使用 SSH 隧道(ssh -L 8000:localhost:8000 root@<ip>)而不是直接暴露 8000 端口。

  4. 降低 max-model-len 以节省显存 — 如果你不需要完整的 256K 上下文,请设置 --max-model-len 3276865536 以显著减少 KV-cache 内存使用。

  5. 考虑稠密的替代方案 — 对于单 GPU 设置,Mistral 3 14B(mistral3:14b 在 Ollama 中)在单个 RTX 4090 上提供出色性能,且来自同一模型家族。

# 使用固定种子以获得一致结果

问题
解决方案

CUDA 内存不足(out of memory) 在 vLLM 上

减少 --max-model-len (尝试 32768),增加 --tensor-parallel-size,或使用 NVFP4 checkpoint

生成速度慢

确保已安装 --tensor-parallel-size 匹配你的 GPU 数量;使用 Eagle checkpoint 启用推测解码

Ollama 无法加载 675B

确保你的 GPU 间显存总量为 96GB+;Ollama 需要 OLLAMA_NUM_PARALLEL=1 用于大型模型

tokenizer_mode mistral 错误

你必须传入所有三个标志: --tokenizer-mode mistral --config-format mistral --load-format mistral

视觉功能无法工作

确保图像接近 1:1 的宽高比;为获得最佳效果,避免非常宽或非常窄的图像

下载太慢

使用 huggingface-cli download mistralai/Mistral-Large-3-675B-Instruct-2512-NVFP4HF_TOKEN 设置

延伸阅读

最后更新于

这有帮助吗?