基于云计算平台的并行序列关联规则方法的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:GOUGOU2929
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列关联规则挖掘在许多领域有着广泛的应用,如客户行为分析,客户服务推荐等,但序列关联规则挖掘也存在一些挑战,当序列数据库规模较大时,内存和CPU资源就成为算法的瓶颈,即传统的序列关联规则挖掘算法很难处理海量数据。   本论文为解决海量数据的处理需求,深入研究了串行和传统的并行序列关联规则挖掘算法,针对这些算法的不足,同时也利用数据本身的特征,设计开发了基于首事件分解的并行序列关联规则挖掘算法,算法的主要步骤为:数据预处理,基于首事件的序列分组和有序序列挖掘。本文的创新点在于:   1.在一次MapReduce过程中将首事件的分解序列与其非首事件的挖掘序列进行拼接,得到完整的有序序列及其支持计数。这很好解决了传统并行算法中序列增长缓慢的问题,极大加速了海量数据集上序列的增长速度;   2.充分利用分布式系统的特点,对算法运行过程中产生的数据进行整理排序,并使用combine函数来降低由map阶段向reduce阶段传输的数据量,降低了算法的空间开销和时间开销;   3.采用分治思想,将序列数据库划分为事件内项重复和事件内项不重复两部分,对事件内项重复的序列数据库采用传统的序列关联规则算法,对事件内项不重复的序列数据库采用首事件分解的序列关联规则算法;   实验在中国移动研究院云计算平台上进行,实验数据是1600多万客户服务订购序列的真实数据集,实验证明,首事件分解的并行序列关联规则挖掘算法不仅能有效的处理海量数据,而且在性能和可扩展性上都优于传统的并行序列关联规则挖掘算法。  
其他文献
随着信息技术的不断发展,软件的应用领域愈加宽广,软件规模日益扩大,企业内部的遗产系统和散布于互联网上的开源项目也在不断增加。为了降低软件项目的开发成本,提高软件的开发效
随着近10年来的迅速发展,计算机已经深入人们生活的方方面面。其中,计算机辅助教学(CAI)已经极大地改变了传统的教育教学方式,提高了教师的教学效果和学生的学习兴趣。但是传统
粒子群优化算法是一种模拟鸟类群体行为的智能优化算法,现已成为进化算法的一个新的重要分支。粒子群算法思想直观、实现简单而且具有很高的执行效率,自提出以来,受到国内外
一个城市的供水系统中如果发生了污染事件会给社会带来巨大的损失。管网中发生的污染事件能使其中自来水的水质指标变化发生明显的异常。在供水管网中部署传感器网络能够实时
软件复用是解决软件危机的有效途径。实现软件复用的一种可行办法是在特定的应用领域内组织实施可复用资产的生产活动,即领域工程。特征建模是领域工程中捕获可复用需求的一种
软件测试作为保证软件质量和可靠性的一种重要技术,在整个软件开发成本中占有重大比例,提高软件测试的效率对于降低软件维护成本具有重要的意义。而在软件测试的过程中,测试数据
真实感图像绘制作为计算机图形学的重要研究课题,通过综合利用数学、物理学、计算机以及心理学等知识绘制出逼近真实相机拍摄效果的图像。其中,蒙特卡洛路径跟踪算法模拟光线在
大规模群体非正式学习中,学习者不仅仅是从学习资源内容中学习,围绕某个知识点建立的人际网络可以成为学习的重要内容。现有的网络课程只是简单的为学习者传递物化的资源,而
分布式共享与协同技术可以很好的组织、管理、存储和访问分布在不同地理位置上的空间数据资源。Agent因其自适应、灵活等特点,可以自主地在分布式环境中发挥作用。对于每一个
纵观国内外大部分制糖企业除了煮糖阶段仍采用间歇法外,其余工序都已经基本实现了生产中的自动化控制。国内大部分制糖企业在煮糖工序结晶环节仍需人工目测感触晶粒的成长状