论文部分内容阅读
从海量的数据中挖掘出有价值的模式是非常重要的研究领域。数据挖掘的早期研究主要集中在频繁模式挖掘,目标是识别出在事务数据库中出现次数较多的项目集。这些频繁的模式能够帮助企业更好的理解数据并且提供决策支持。然而随着数据丰富度的增加,模式的频次信息不能满足工业界的应用需求,因此面对复杂的数据类型和多样的属性信息,许多基于频繁模式挖掘的拓展研究被相继提出。其中,高效用序列模式挖掘是近年来重要的研究领域之一。高效用序列模式挖掘支持在数据中找到重要的模式,并且使用数值型的“效用”度量来评估模式的重要性。例如,在交易型数据库中,“效用”为企业盈利的度量,企业可分析消费者购买产品的时间和习惯,挖掘出能够带来高额利润的高效用模式来预测消费者的未来购买行为并作出合理的推荐;虽然高效用序列模式挖掘在生活中有着广泛的应用,但是同时它也存在一个不可忽视的局限:“效用”度量通常不足以真正的或者客观的评价模式的实用性。传统的高效用序列模式挖掘只对模式可能提供的效益进行了评估,但是却忽略了实际使用这些模式的所需成本,比如时间投入,资源投入等等。以医院场景举例,通常情况下,患者们会接受不同的治疗方案,每一套治疗方案被记录为以时间顺序排列的事件列表,而效用代表患者是否被医治成功(或者是医治成功的概率)。那么在此类日志记录数据库中应用高效用序列模式挖掘可以发现一些高效的治疗方案,比如模式,代表着许多患者通过该治疗模式得到了康复。尽管挖掘出的模式在帮助医治患者上有一定的指导意义,但是它们的价值也受到另一重要因素的影响,即在实际应用模式时所需要付出的时间,金钱和资源成本。应用高效用序列模式挖掘算法会挖掘出很多能够产生高效用但是同时具有非常高成本代价的方案;同样的,它也可能会错过一些具有较好效用并且产生较小成本的模式。显然,以上两种情况都是不理想的。
为解决这一局限,本文提出了在事件日志数据库中挖掘低成本高效用模式。本文针对实际生活中存在的不同应用场景,即事件日志数据库中的效用类型分别为数值型和二分类类型,提出了两类算法挖掘相应的低成本高效用模式。此外,针对两种不同的应用场景,本研究设计并应用了相应的统计度量用以评价模式,因此可根据评价结果对挖掘出的模式按照重要程度进行排序。最后,本研究设计并提出了效果显著的剪枝策略和搜索策略,提高了算法的运行效率以及減少了内存用量。
序列事件日志(SEL)由若干序列记录组成,SE L=.一个序列记录包括若干事件按照时间顺序排列的列表和该记录的效用,Ss=<{e1[c1],e2[c2],...em[cm]}|Utilit y>;其中ei代表事件(按照时间顺序排列),ci代表事件的成本,Utilit y代表该序列Ss的效用,其中一种为数值型,另一种是二分类类型(表示为?or+,代表负例和正例)。模式p=由按照时间排序的事件列表组成。模式p在某一序列的代价等于此模式中的事件成本总和,c(p,Ss)=∑ei∈f irst(p,Ss)c(ei,Ss)如果p?Ss,否则等于0;模式p在整个日志记录中的成本等于它所在不同序列中的成本总和的均值,c(p)=∑p?Ss∧Ss∈SEL c(p,Ss)。比如在Table3-1中,在第一个序列中,模式的代价为c(,S1)=2+4=6。假设用户以花费的钱数(美元)作为成本度量,那么应用模式的成本为6美元;那么模式在整个数据库中成本均值为为9美元,c()=(c(,S1)+c(,S3)+c(,S4))/3=((2+4)+(5+8)+(3+5))/3=9。以上信息对用户非常有帮助,因为他们可以规避占用太多资源的模式。
本文首先研究当效用类型为二分类类型时挖掘产生较小成本并能产生正向结果(+)的模式。在用户设置的最大代价maxcost和最小支持度minsup阈值的条件下,挖掘出支持度不小于mingsup并且成本不大于maxcost的模式。此外,因为满足上述条件的模式可随机分布在具有正例和负例效用的序列中,所以模式与二分类效用之间的因果关系不能唯一确定。因此为解决这一问题,本文提出了一个统计度量,该度量根据模式分别在正例和负例中出现的频次以及它们所消耗的成本分布差异来评估这些模式与正向结果的关联度。关联度的测量公式为cor(p)=ac(D+p)?ac(D?p)/Std√sup(D+p)/|Dp|supD(D?p)/|Dp|,其中ac(D+p)和ac(D?p)分别代表模式p在正例序列集合和负例序列集合中的均值代价,Std是模式p在整个数据库中代价的方差,sup(D+p)和sup(D?p)代表模式p分别在正例序列集合和负例序列集合中的支持度。它的结果所在的范围为[?1,1],如果结果越趋近于+1,那么该模式与理想结果(+)的关联度越强;相反,若结果越趋近于?1,那么该模式与负向结果(?)的关联度越强。例如,在线学习的事件日志数据库中会记录学生的学习路径,比如观看视频,阅读材料,参与小测,参加讨论等等,以及学生在每个资源上使用的时间以及他们在最后测验中的考试结果(pass或者f ail)。学习路径的选择以及在每个资源上花费时间的多少都会影响学生在测验中取得的成绩。模式p=用时5小时,它的关联度度量为cor(p)=0.85;而另一模式p′=
为解决这一局限,本文提出了在事件日志数据库中挖掘低成本高效用模式。本文针对实际生活中存在的不同应用场景,即事件日志数据库中的效用类型分别为数值型和二分类类型,提出了两类算法挖掘相应的低成本高效用模式。此外,针对两种不同的应用场景,本研究设计并应用了相应的统计度量用以评价模式,因此可根据评价结果对挖掘出的模式按照重要程度进行排序。最后,本研究设计并提出了效果显著的剪枝策略和搜索策略,提高了算法的运行效率以及減少了内存用量。
序列事件日志(SEL)由若干序列记录组成,SE L=
本文首先研究当效用类型为二分类类型时挖掘产生较小成本并能产生正向结果(+)的模式。在用户设置的最大代价maxcost和最小支持度minsup阈值的条件下,挖掘出支持度不小于mingsup并且成本不大于maxcost的模式。此外,因为满足上述条件的模式可随机分布在具有正例和负例效用的序列中,所以模式与二分类效用之间的因果关系不能唯一确定。因此为解决这一问题,本文提出了一个统计度量,该度量根据模式分别在正例和负例中出现的频次以及它们所消耗的成本分布差异来评估这些模式与正向结果的关联度。关联度的测量公式为cor(p)=ac(D+p)?ac(D?p)/Std√sup(D+p)/|Dp|supD(D?p)/|Dp|,其中ac(D+p)和ac(D?p)分别代表模式p在正例序列集合和负例序列集合中的均值代价,Std是模式p在整个数据库中代价的方差,sup(D+p)和sup(D?p)代表模式p分别在正例序列集合和负例序列集合中的支持度。它的结果所在的范围为[?1,1],如果结果越趋近于+1,那么该模式与理想结果(+)的关联度越强;相反,若结果越趋近于?1,那么该模式与负向结果(?)的关联度越强。例如,在线学习的事件日志数据库中会记录学生的学习路径,比如观看视频,阅读材料,参与小测,参加讨论等等,以及学生在每个资源上使用的时间以及他们在最后测验中的考试结果(pass或者f ail)。学习路径的选择以及在每个资源上花费时间的多少都会影响学生在测验中取得的成绩。模式p=