Mistral Small 3.1

在 Clore.ai 部署 Mistral Small 3.1(24B)——理想的单 GPU 生产模型

Mistral Small 3.1,由 Mistral AI 于 2025 年 3 月发布,是一个 240 亿参数的密集模型 其表现远超其体量。具有 128K 上下文窗口、原生视觉能力、同类最佳的函数调用,以及一个 Apache 2.0 许可证,可以说是在单块 RTX 4090 上能运行的最佳模型。它在大多数基准测试中超越 GPT-4o Mini 和 Claude 3.5 Haiku,并且量化后可舒适地适配消费级硬件。

主要特性

  • 24B 密集参数 — 无 MoE 复杂性,部署简洁明了

  • 128K 上下文窗口 — RULER 128K 得分 81.2%,优于 GPT-4o Mini(65.8%)

  • 原生视觉 — 分析图像、图表、文档和屏幕截图

  • Apache 2.0 许可证 — 完全开放用于商业和个人用途

  • 高级函数调用 — 原生工具使用并输出 JSON,适合代理式工作流

  • 多语言 — 支持 25+ 语言,包括中日韩、阿拉伯语、印地语和欧洲语言

要求

组件
已量化(Q4)
全精度(BF16)

GPU

1× RTX 4090 24GB

2× RTX 4090 或 1× H100

显存

~16GB

~55GB

内存

32GB

64GB

磁盘

20GB

50GB

CUDA

11.8+

12.0+

Clore.ai 建议:RTX 4090(约 $0.5–2/天)用于量化推理 — 最佳性价比

使用 Ollama 快速入门

运行 Mistral Small 3.1 的最快方法:

Ollama 作为兼容 OpenAI 的 API

带视觉能力的 Ollama

vLLM 设置(用于生产)

针对具有高吞吐量和并发请求的生产工作负载:

在单 GPU 上服务(仅文本)

带视觉功能的服务(建议 2 块 GPU)

查询服务器

HuggingFace Transformers

用于直接的 Python 集成和实验:

函数调用示例

Mistral Small 3.1 是用于工具使用的最佳小型模型之一:

Docker 快速开始

给 Clore.ai 用户的提示

  • RTX 4090 是最佳选择:以 $0.5–2/天 的成本,单块 RTX 4090 可以运行量化后的 Mistral Small 3.1 并有余地。对于通用 LLM,在 Clore.ai 上具有最佳性价比。

  • 使用较低温度:Mistral AI 建议 temperature=0.15 用于大多数任务。较高的温度会导致该模型输出不一致。

  • RTX 3090 也可用:以 $0.3–1/天 的成本,RTX 3090(24GB)可用 Ollama 运行 Q4 量化模型。速度略逊于 4090,但价格约为一半。

  • Ollama 适合快速设置,vLLM 适合生产:Ollama 可在 60 秒内让你得到可用模型。对于并发 API 请求和更高吞吐量,请切换到 vLLM。

  • 函数调用让它与众不同:许多 24B 模型能进行对话——很少能可靠地调用工具。Mistral Small 3.1 的函数调用可与 GPT-4o Mini 媲美。可以自信地构建代理、API 后端和自动化流水线。

# 使用固定种子以获得一致结果

问题
解决方案

OutOfMemoryError 在 RTX 4090 上

通过 Ollama 使用量化模型或 load_in_4bit=True 在 Transformers 中。全 BF16 需约 55GB。

Ollama 未找到模型

使用 ollama run mistral-small3.1 (官方库名称)。

vLLM 分词器错误

始终传递 --tokenizer-mode mistral --config-format mistral --load-format mistral.

输出质量差

设置 temperature=0.15。添加系统提示。Mistral Small 对温度较为敏感。

视觉在 1 块 GPU 上无法工作

视觉功能需要更多显存。使用 --tensor-parallel-size 2 或减少 --max-model-len.

函数调用返回为空

添加 --tool-call-parser mistral --enable-auto-tool-choice 到 vLLM serve。

延伸阅读

最后更新于

这有帮助吗?