Mistral 与 Mixtral

在 Clore.ai GPU 上运行 Mistral 与 Mixtral 模型

circle-info

有更新版本可用! 查看 Mistral Small 3.1 (24B,Apache 2.0,可在 RTX 4090 上运行)和 Mistral Large 3 (675B MoE,前沿级)。

运行 Mistral 和 Mixtral 模型以生成高质量文本。

circle-check

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

模型概览

A100
参数量
显存
专长

Mistral-7B

7B

8GB

通用用途

Mistral-7B-Instruct

7B

8GB

聊天/指令

Mixtral-8x7B

46.7B(12.9B 活跃)

24GB

MoE,最佳质量

Mixtral-8x22B

141B

80GB+

最大的 MoE

快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

安装选项

使用 Ollama(最简单)

使用 vLLM

使用 Transformers

使用 Transformers 的 Mistral-7B

Mixtral-8x7B

量化模型(更低显存)

4 位量化

使用 llama.cpp 的 GGUF

vLLM 服务器(生产)

兼容 OpenAI 的 API

流式传输

函数调用

Mistral 支持函数调用:

Gradio 界面

性能比较

吞吐量(tokens/秒)

A100
按小时费率
速度
512x512
按日费率

Mistral-7B FP16

45

80

120

150

Mistral-7B Q4

70

110

160

200

Mixtral-8x7B FP16

-

-

30

60

Mixtral-8x7B Q4

-

25

50

80

Mixtral-8x22B Q4

-

-

-

25

首个标记时间(TTFT)

A100
速度
512x512
2s

Mistral-7B

80 毫秒

50 毫秒

35 毫秒

Mixtral-8x7B

-

150ms

90 毫秒

Mixtral-8x22B

-

-

200ms

上下文长度 vs 显存(Mistral-7B)

上下文
FP16
Q8
Q4

4K

15GB

9GB

5GB

8K

18GB

11GB

7GB

16K

24GB

15GB

9GB

32K

36GB

22GB

14GB

显存要求

A100
FP16
8 位
4 位

Mistral-7B

14GB

8GB

5GB

Mixtral-8x7B

90GB

45GB

24GB

Mixtral-8x22B

180GB

90GB

48GB

使用场景

代码生成

数据分析

创意写作

# 使用固定种子以获得一致结果

内存不足

  • 使用 4 位量化

  • 使用 Mistral-7B 而不是 Mixtral

  • 减少 max_model_len

生成速度慢

  • 在生产环境中使用 vLLM

  • 启用 flash attention

  • 对多 GPU 使用张量并行

输出质量差

  • 调整温度(0.1-0.9)

  • 使用 instruct 变体

  • 更好的系统提示

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

使用以下方式支付

最后更新于

这有帮助吗?