Mistral.rs

用 Rust 编写的超快大型语言模型推理 — 生产就绪服务器,支持 GGUF、GGML、SafeTensors 和兼容 OpenAI 的 API。

🦀 采用 Rust 构建 以获得最大性能 | 支持 GGUF 和视觉模型 | Apache-2.0 许可证


什么是 Mistral.rs?

Mistral.rs 是一个完全用 Rust 编写的高性能大型语言模型推理引擎, Rust。最初专注于 Mistral 模型,现在支持现代大型语言模型的整个生态。Rust 基础提供:

  • 零成本抽象 — 推理期间没有垃圾回收暂停

  • 内存安全 — 没有空指针异常或内存泄漏

  • 确定性性能 — 一致的延迟,没有 JVM/Python 开销

  • 编译时优化 — 在构建时优化的 SIMD、多线程和 GPU 内核

主要功能

  • GGUF 支持 — 运行任何量化模型(Q4_K_M、Q8_0 等)

  • ISQ(就地量化) — 在加载时即时进行量化

  • PagedAttention — 高效的 KV 缓存与连续批处理

  • 视觉语言模型 — 支持 LLaVA、Phi-3 Vision、Idefics

  • 推测式解码 — 使用草稿模型更快的推理

  • X-LoRA — 可扩展的微调适配器支持

  • 兼容 OpenAI 的 REST API — 即插即用替代方案

支持的模型系列

系列
格式
引擎

Llama 2/3

GGUF、SafeTensors

Rust CUDA

Mistral/Mixtral

GGUF、SafeTensors

Rust CUDA

Phi-2/3

GGUF、SafeTensors

Rust CUDA

Gemma

GGUF、SafeTensors

Rust CUDA

Qwen 2

GGUF、SafeTensors

Rust CUDA

Starcoder 2

GGUF

Rust CUDA

LLaVA 1.5/1.6

SafeTensors

视觉

Phi-3 Vision

SafeTensors

视觉


在 Clore.ai 上快速开始

步骤 1:查找 GPU 服务器

clore.aiarrow-up-right 市场:

  • 最低要求: 8GB 显存(用于 7B Q4 模型)

  • 推荐: 较大模型需 RTX 3090/4090(24GB)

  • 需要 CUDA 11.8+

第 2 步:部署 Mistral.rs Docker

端口映射:

容器端口
用途

22

SSH 访问

8080

REST API 服务器

可用的镜像变体:

第 3 步:连接并验证


运行服务器

使用 GGUF 模型快速开始

提供 Mistral 7B(SafeTensors)

使用就地量化(ISQ)提供服务

ISQ 在加载时对模型进行量化 — 无需预先量化的模型:

视觉语言模型

投机性解码

circle-check

API 使用

兼容 OpenAI 的端点

端点
方法
描述

/v1/chat/completions

POST

聊天补全

/v1/completions

POST

文本补全

/v1/models

GET

列出模型

/v1/images/generations

POST

图像生成(视觉语言模型)

/v1/re_isq

POST

重新对已加载模型进行量化

/health

GET

健康检查

Python 示例

流式响应

视觉/图像输入

cURL 示例


配置选项

服务器标志

ISQ 量化参考

ISQ 选项
位数
速度
显存(7B)

Q2K

2

★★☆☆☆

~2.5GB

Q3K

3

★★★☆☆

~3.5GB

Q4_0

4

★★★★☆

~4.5GB

Q4K

4

★★★★☆

~4.5GB

Q5K

5

★★★★★

~5.5GB

Q6K

6

★★★★★

~6.5GB

Q8_0

8

★★★★★

≈8GB

HQQ4

4

★★★★☆

~4.5GB

HQQ8

8

★★★★★

≈8GB

circle-info

HQQ(半二次量化) 在相同位级别上,通常比 GGUF 的 Q4 达到更好的质量,尤其是在跟随指令的任务上。


高级功能

X-LoRA(多个 LoRA 适配器的混合)

动态地为每个令牌运行多个微调适配器并选择:

运行时重新量化

请求日志


性能调优

优化吞吐量

优化低延迟

监控性能


Docker Compose


从源码构建

如果 Docker 镜像与您的 CUDA 版本不匹配:

circle-exclamation

故障排除

未找到 CUDA 库

模型下载失败

端口 8080 被占用

量化期间内存不足

triangle-exclamation

Clore.ai 的 GPU 建议

Mistral.rs 是一个原生 Rust 引擎 — 它的低开销意味着相比基于 Python 的服务器,你能以更低的 GPU 成本获得更高的吞吐量。

GPU
显存(VRAM)
Clore.ai 价格
推荐使用
吞吐量(Mistral 7B Q4)

RTX 3090

24 GB

~$0.12/小时

最佳预算选项 — 7B Q4/Q8、视觉模型

~120 令牌/秒

RTX 4090

24 GB

~$0.70/小时

高吞吐量 7B–34B,投机性解码

~200 令牌/秒

A100 40GB

40 GB

~$1.20/小时

生产级 34B–70B Q4 服务

~160 令牌/秒

💡 本指南中的所有示例均可部署在

80 GB

~$2.00/小时

全精度 70B,多模型

~185 令牌/秒

为什么 RTX 3090 在此表现出色: Mistral.rs 的 Rust CUDA 内核避免了 Python GIL 开销和会影响 Python 服务器的垃圾回收暂停。在相同硬件上运行 Mistral 7B Q4_K_M 的 RTX 3090 提供了 120 令牌/秒 — 在相同硬件上与 vLLM 可比,但成本只是其一小部分($0.12/小时 vs 云提供商收费 $1–2/小时)。

投机性解码: 将大型模型(34B)与小型草稿模型(3B)配对,可在不损失质量的情况下实现 2–3× 加速。RTX 4090 非常适合这种模式。


资源

最后更新于

这有帮助吗?