MiMo-V2-Flash
Despliega MiMo-V2-Flash (309B MoE) con decodificación especulativa en Clore.ai: inferencia ultrarrápida con más de 150 tok/s
De un vistazo
¿Por qué MiMo-V2-Flash?
Recomendaciones de GPU
Configuración
VRAM
Rendimiento
Coste diario*
Despliegue con SGLang (Recomendado)
Instalar SGLang
Configuración multi-GPU con MTP
Consultar con la API de OpenAI
Desplegar con vLLM
Plantilla Docker
Configuración avanzada
Optimización de la decodificación especulativa
Optimización de memoria
Ejemplo de benchmarking
Consejos para usuarios de Clore.ai
Solución de problemas
Problema
Solución
Comparación de rendimiento
Modelo
Tamaño
Velocidad (8×H100)
Calidad
Recursos
Última actualización
¿Te fue útil?