Mistral 与 Mixtral
在 Clore.ai GPU 上运行 Mistral 与 Mixtral 模型
在 CLORE.AI 上租用
访问您的服务器
模型概览
A100
参数量
显存
专长
快速部署
访问您的服务
安装选项
使用 Ollama(最简单)
使用 vLLM
使用 Transformers
使用 Transformers 的 Mistral-7B
Mixtral-8x7B
量化模型(更低显存)
4 位量化
使用 llama.cpp 的 GGUF
vLLM 服务器(生产)
兼容 OpenAI 的 API
流式传输
函数调用
Gradio 界面
性能比较
吞吐量(tokens/秒)
A100
按小时费率
速度
512x512
按日费率
首个标记时间(TTFT)
A100
速度
512x512
2s
上下文长度 vs 显存(Mistral-7B)
上下文
FP16
Q8
Q4
显存要求
A100
FP16
8 位
4 位
使用场景
代码生成
数据分析
创意写作
# 使用固定种子以获得一致结果
内存不足
生成速度慢
输出质量差
下载所有所需的检查点
GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):
使用以下方式支付
最后更新于
这有帮助吗?