Process Mining文献阅读笔记
第一篇:
"Prescriptive Business Process Monitoring for Recommending Next Best Actions" -Sven Weinzierl, Sebastian Dunzer, Sandra Zilker, and Martin Matzner
Predictive business process monitoring(PBPM) predict future process behaviour. -> To improve operational business processes.
PBPM constructs predictive models from historical event log data. -> Tackle different prediction tasks like: predicting next activities, process outcomes or remaining time.
use deep neural networks(DNNs) to learn predictive models for producing more accurate predictions in running process instances. DNN属于深度学习算法,深度学习又是machine learning的subarea. After learning, models can predict the next most likely activity of running process instances.
然而,提供下一个最可能的活动并不一定能在流程执行中支持流程的利益相关者. Organisations measure the performance of the process through key performance indicators(KPI) in regard the three dimensions: time, cost and quality. 即使event log有可能包含kpi的信息,但并不会直接影响算法的学习过程,除非a koi is the (single) learning target itself. 因此,习得的模型可以输出下一个activity的预测,这对过程的利益相关者来说是不太有利的( 意思是算法的实际学习过程和organisation的kpi并不一致?因为利益相关者通过kpi衡量绩效,所以想要能够满足kpi绩效的next activity预测)
->因为PBPM对process stakeholders less beneficial, 所以这篇论文提出了PrBPM方法。
PrBPM评估kpi对process performance的影响,进而防止出现非organisation想要的活动。现有方法都是生成警报或recommend actions, 但是没有一个approach以process activities 的形式推荐下一个在运行流程的特定kpi方面最优的最佳action。最佳在我们的语境中指的是关于流程实例未来进程的kpi的最佳值。另外,基于kpi预测的next best actions可能会掩盖actual business process. 因此,转换法应该check a recommended action 和process description 是否一致。
图例1—A next activity prediction vs. a next best action recommendation.
PrBPM: a technique for recommending the next best actions depending on a KPI. 它进行了业务流程模拟(BPS),以保持在允许的控制流范围内。
本文结构:
section1: Introduction
sec2: required background for PrBPM technique
1.
Event;
Trace
Event log;
Prefix, suffix of a trace
2.
LSTM(Long short-term memory neutral networks)是一种特殊的RNN, 能够学习长期依赖性。LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件,LSTM网络非常适合基于时间序列数据进行分类,处理和预测,因为在时间序列中的重要事件之间可能存在未知持续时间的滞后。
3.
Business process simulation(BPS): to assess the quality of process execution. (delivers its insights to users.)评估流程执行质量
->autor refers to: discrete-event-driven BPS
sec3: introduces the design of PrBPM technique for recommending next best actions.
-> PrBPM transforms next activity predictions into the next best actions.
-> PrBPM consists of 2 component.
-> offline component : it learns a DNN for predicting next activities and
values of a KPI. 即先通过学习一个深度学习算法来 预测
next activities和KPI的值 。
input : an event log Lt
output : two ML models:
m_pp( process prediction model): 预测下一个活动和下一个活动相关的KPI值。 m_pp is a multi-task DNN
**- >先预处理: **m_pp的pre-processing由 四步 组成: 一 ,确定end of each process instance in event log,在每个process instance中添加一个终止event,且新添加的事件的时间戳取原有的最后一个事件的时间,并将kpi值设为0。 二 ,用独热编码将所有activity name编成numeric values。 三 ,只看编码前缀1,按size再次重编。 四 ,转换重编后的input data为three-order tensor(prefixes, time steps, attributes), 另外,m_pp还需要两个label structures 去进行参数学习。
- >再创建模型: create process prediction model: m_pp的输入层接收数据并移交至first hidden layer. The first layer 由两个分支组成,每个预测任务的分支又由两层layers组成,一个hidden layer和一个output layer。上层分支的output layer实现next activity prediction,而下层分支则创造了kpi值的预测。下层分支根据kpi的scaling 解决回归或分类问题。每一个m_pp的hidden layer都是一个LSTM layer with an LSTM cell.
m_cs( candidate selection model): 选择一组固定的后缀候选(suffix candidates)。 m_cs is a nearest-neighbour-based ML algorithm. m_cs通过寻找相似的suffixes来预测suffixes. 后缀其实可以简单理解为接下来的活动。
**- > ** 先预处理: m_cs的pre-processing由三步组成:一,将所有activity names按序数编码成序号,如〈(1), (2), (3), (4), (5)〉。二,将process实例的的后缀“裁剪”出来,如suffix with size three就是〈(4), (5)〉。三,裁剪后的输入数据被转换成二维矩阵(suffixes and attributes)
**- > ** 再创建模型: 它在已有前缀(即a running process instance at a certain time step)的基础上检索最近的k个后缀来进行预测。
这两个models都是各自单独从event log 的 pre-processed versions学习来的, 见例图2
-> online component : 基于对 next activities和KPI的值的预测 的基础上
推荐the next best actions 。
input: a new process instance AND the two trained predictive models m_pp & m_cs.
output : next best actions.
如例图3,online component 由五步组成:
一,对运行中的流程实例进行 预处理
二,应用m_pp 预测下一个活动的后缀及其kpi值 。注意这一步的条件是,后缀的kpi值与各自的前缀之和是否超过阈值,阈值可以由domain experts定义或者从event log中得出(eg. average costs of process instances) (接第三步)
三, 寻找candidate : 若超过则进行第三步去生成 next best action ;否则,它提供下一个最有可能的活动 (next most likely activity)。 它从offline component加载m_cs模型来找到suffix candidates的集合。
四,根据kpi和bps从集合中 选出best candidat e。
五,所选后缀的first activity代表the best action。如果best action是process instance的 结束 ,那么就可以结束这个程序了,否则,程序 继续 ,(回到第二步?)并预测新前缀的后缀。
sec4: evaluate this technique
-> 使用2/3训练集和1/3测试集。
从时间和最小距离两个维度来对模型进行evaluate。选择k值为5,10,15。时间,距离都是越小越好
-> PrBPM提供与事件日志的下一个最可能的活动相比,具有较低的时间内值和较小的距离的行动。我们的技术可以从中推荐具有较低时间值的行动,而存在较少的过程路径。k也有影响,k=10最优
sec5: discussion.
-> KPI: the throughput time.
-> DCR graph: realises BPS via the event log.
sec6: related work
sec7: summary and outlook on future work.(Conclusion)
也就是说,原本的PBPM方法提供的下一个活动预测对过程利益相关者不是很有利。所以,作者提出的PrBPM方法可以 在running process中 推荐next best action。因为之前的研究都只能输出next activities的预测。据作者所知,还没有一种PrBPM方法可以根据给定的KPI将下一个最可能的活动预测转化为下一个最佳行动。所以作者提供的方法的亮点是 将 下一个最可能的活动根据给定的KPI转化为下一个最佳行动 。
作者通过对两个真实event log的评估对比,评估数据展示了在他提出的技术下,下一个最佳行动可以在 两方面 优于下一个活动预测,即 KPI的优化 和与 实际流程实例的距离方面 。
