大数据背景下并行动态关联规则挖掘研究

来源 :兰州交通大学 | 被引量 : 11次 | 上传用户:jst1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,大数据技术在社会各个领域和层面都发挥着巨大作用,且地位不断跃升。能否整合并利用好大数据已经成为政府和各经济体事业成败的关键。作为一种新型的战略资源,大数据具有明显的自身特征:体量大、种类多、产生速度快、实时性要求高、价值密度低,这意味着传统的单机串行算法已不能满足大数据的处理需求,面向多机、并行、分布式的大数据处理方式变得越来越重要。数据挖掘是挖掘数据潜在价值的关键技术,关联规则技术作为一种经典的数据挖掘方法备受关注。传统的关联规则技术认为规则是静态的、一成不变的,只要被挖掘出来便可永久用于指导生产实践。然而,现实中的规则是随着时间变化的,为更好地描述这种规则随时间变化的特性,本文采用了支持度向量SV和置信度向量CV,重点研究动态关联规则的并行分层挖掘方法。首先,本文通过对现有并行技术、并行关联规则挖掘算法和动态关联规则挖掘算法进行研究,提出了一种能够实时高效地处理大量数据的并行关联规则挖掘算法——基于划分的并行分层关联规则挖掘(PHARM)算法。该算法基本思想是将整个数据集D随机分割成若干个非重叠子数据集,并且每个子数据集还可继续划分成更小的子集,进而并行分层地挖掘出局部频繁项集;根据频繁项集先验性质,连接局部频繁项集得到全局候选项集;扫描D统计出每个候选项集的实际支持度,以确定全局频繁项集。并通过建模分析和实验,证明了该算法的高效性和在数据量较大时具有的明显优势。其次,本文在两阶段ITS算法的基础上,将并行分层挖掘思想应用到动态关联规则挖掘的第一阶段,提出了两种适用于动态关联规则挖掘的高效算法:基于划分的并行分层动态关联规则挖掘(PDMD)算法和基于构建候选矩阵的并行分层动态关联规则挖掘(PDMC)算法。前者为找出全局频繁项集L及其频数向量FV需要对整个数据集进行一次扫描;后者利用局部频繁项集构建候选矩阵,不用再次扫描数据库即可获得全局频繁项集L及其频数向量FV。
其他文献
随着国民经济的快速发展,各行业的电气化程度也越来越高。但许多新兴的电气设备在其运行中向电力系统注入了各种电磁干扰,影响和危害了电力系统的安全运行和设备的正常工作。
小麦作为我国三大粮食作物之一,在人民生活和国民经济中占有极为重要的地位。麦蚜是我国各小麦产区的常发性害虫,不仅蚕食小麦营养、影响光合作用,而且还传播麦类病毒,导致小
日前,国务院颁布实施了《全国医疗卫生服务体系规划纲要(2015-2020)》(后文简称《规划纲要》),新规划第一次明确提出“全面建成互联互通的国家、省、市、县四级人口健康信息平台”,
近年来,随着可信计算(Trusted Computing)研究的不断深入,国内外对它的研究已经开始从硬件层面向软件等方向转变。可是面对越来越复杂的各种应用软件,软件危机、错误、缺陷、
目前,我国变电站操作人员的培训主要通过变电站仿真系统进行。设备巡视是仿真系统中必不可少的一项功能,本文设计并实现了一种新型的仿真变电站设备巡视系统。该系统在完成变
环境是动态变化的,MAS中Agent行为也是未知的,要建立领域完备的先验模型几乎不可能,许多领域知识也是在Agent的交互过程中逐步获得的,因此复杂环境下的Agent应当能够根据以前
在组播安全理论的研究中,关于组播数据处理和组密钥管理是研究的热点。人们提出了各种不同的数据处理方法和组密钥分发办法,希望可以设计出能够满足各种不同安全需求的组播安全
WAP事务协议(WTP)作为WAP协议体系结构中的一个重要部分,向会话层提供基于请求响应的分布式事务服务。由于WAP论坛将WAP协议规范以自然语言的形式发布,这样的好处是可读性好,
集成学习(Ensemble Learning)是一种较新的机器学习范式,它使用多个学习器来解决同一问题,它能够显著地提高学习系统的泛化能力。决策森林作为一种优秀的集成学习方法,在实际
本文所做工作是科研课题“C/C++软件安全检查工具”的一部分。根据该课题的实际要求,本文在充分研究C/C++语法结构的基础上,主要做了以下工作:首先,基于分析器自动生成工具ANT