MiMo-V2-Flash
在 Clore.ai 使用投机解码部署 MiMo-V2-Flash(309B MoE)——超高速推理,150+ tok/s
概览
为什么选择 MiMo-V2-Flash?
GPU 推荐配置
设置
显存(VRAM)
性能
每日费用*
推荐使用 SGLang 部署
安装 SGLang
支持 MTP 的多 GPU 设置
使用 OpenAI API 发起查询
使用 vLLM 部署
Docker 模板
高级配置
优化投机性解码
内存优化
基准示例
给 Clore.ai 用户的提示
故障排除
问题
解决方案
性能比较
模型
规模
速度(8×H100)
质量
资源
最后更新于
这有帮助吗?