大数据背景下并行动态关联规则挖掘研究

来源 :兰州交通大学 | 被引量 : 11次 | 上传用户：jst1984

【摘要】

：

目前,大数据技术在社会各个领域和层面都发挥着巨大作用,且地位不断跃升。能否整合并利用好大数据已经成为政府和各经济体事业成败的关键。作为一种新型的战略资源,大数据具

【作者】

：

田苗凤

【机构】

：

兰州交通大学

【出处】

：

兰州交通大学

【发表日期】

：

2015年01期

【关键词】

：

大数据数据挖掘并行算法动态关联规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前,大数据技术在社会各个领域和层面都发挥着巨大作用,且地位不断跃升。能否整合并利用好大数据已经成为政府和各经济体事业成败的关键。作为一种新型的战略资源,大数据具有明显的自身特征:体量大、种类多、产生速度快、实时性要求高、价值密度低,这意味着传统的单机串行算法已不能满足大数据的处理需求,面向多机、并行、分布式的大数据处理方式变得越来越重要。数据挖掘是挖掘数据潜在价值的关键技术,关联规则技术作为一种经典的数据挖掘方法备受关注。传统的关联规则技术认为规则是静态的、一成不变的,只要被挖掘出来便可永久用于指导生产实践。然而,现实中的规则是随着时间变化的,为更好地描述这种规则随时间变化的特性,本文采用了支持度向量SV和置信度向量CV,重点研究动态关联规则的并行分层挖掘方法。首先,本文通过对现有并行技术、并行关联规则挖掘算法和动态关联规则挖掘算法进行研究,提出了一种能够实时高效地处理大量数据的并行关联规则挖掘算法——基于划分的并行分层关联规则挖掘(PHARM)算法。该算法基本思想是将整个数据集D随机分割成若干个非重叠子数据集,并且每个子数据集还可继续划分成更小的子集,进而并行分层地挖掘出局部频繁项集;根据频繁项集先验性质,连接局部频繁项集得到全局候选项集;扫描D统计出每个候选项集的实际支持度,以确定全局频繁项集。并通过建模分析和实验,证明了该算法的高效性和在数据量较大时具有的明显优势。其次,本文在两阶段ITS算法的基础上,将并行分层挖掘思想应用到动态关联规则挖掘的第一阶段,提出了两种适用于动态关联规则挖掘的高效算法:基于划分的并行分层动态关联规则挖掘(PDMD)算法和基于构建候选矩阵的并行分层动态关联规则挖掘(PDMC)算法。前者为找出全局频繁项集L及其频数向量FV需要对整个数据集进行一次扫描;后者利用局部频繁项集构建候选矩阵,不用再次扫描数据库即可获得全局频繁项集L及其频数向量FV。

其他文献

ETL优化技术在构建电能质量数据中心中的研究实现

随着国民经济的快速发展,各行业的电气化程度也越来越高。但许多新兴的电气设备在其运行中向电力系统注入了各种电磁干扰,影响和危害了电力系统的安全运行和设备的正常工作。

学位

ETL电能质量PQDIF.NET框架分析系统

GEP在麦蚜种群建模中的应用研究

小麦作为我国三大粮食作物之一,在人民生活和国民经济中占有极为重要的地位。麦蚜是我国各小麦产区的常发性害虫,不仅蚕食小麦营养、影响光合作用,而且还传播麦类病毒,导致小

学位

麦蚜种群建模基因表达式编程(GEP)蛙跳算法自适应遗传算子模糊聚类麦蚜建模系统

基于E-Health的协同诊治平台的研究与构建

日前，国务院颁布实施了《全国医疗卫生服务体系规划纲要（2015-2020）》（后文简称《规划纲要》），新规划第一次明确提出“全面建成互联互通的国家、省、市、县四级人口健康信息平台”，

学位

医疗流程协同诊治平台安全控制服务质量资源整合

灰色系统理论在软件可信性评估中的应用研究

近年来,随着可信计算(Trusted Computing)研究的不断深入,国内外对它的研究已经开始从硬件层面向软件等方向转变。可是面对越来越复杂的各种应用软件,软件危机、错误、缺陷、

学位

灰色系统理论软件可信性软件可信性评估企业信息检索的可信性综合评估

三维变电站仿真培训系统中设备巡视的研究与实现

目前,我国变电站操作人员的培训主要通过变电站仿真系统进行。设备巡视是仿真系统中必不可少的一项功能,本文设计并实现了一种新型的仿真变电站设备巡视系统。该系统在完成变

学位

仿真培训系统危险区域虚拟巡视员

MAS中基于本体的Agent学习进化机制研究

环境是动态变化的,MAS中Agent行为也是未知的,要建立领域完备的先验模型几乎不可能,许多领域知识也是在Agent的交互过程中逐步获得的,因此复杂环境下的Agent应当能够根据以前

学位

OntologyDFLDFBBDI-Agent语义协商

IPv6安全组播系统中的策略管理与访问控制

在组播安全理论的研究中，关于组播数据处理和组密钥管理是研究的热点。人们提出了各种不同的数据处理方法和组密钥分发办法，希望可以设计出能够满足各种不同安全需求的组播安全

学位

组播安全组策略管理组密钥分发服务质量

基于SPIN的协议的形式化分析和验证

WAP事务协议(WTP)作为WAP协议体系结构中的一个重要部分,向会话层提供基于请求响应的分布式事务服务。由于WAP论坛将WAP协议规范以自然语言的形式发布,这样的好处是可读性好,

学位

协议工程形式化方法模型检测自动机SPINPROMELA

决策森林的子空间选择和集成优化

集成学习(Ensemble Learning)是一种较新的机器学习范式,它使用多个学习器来解决同一问题,它能够显著地提高学习系统的泛化能力。决策森林作为一种优秀的集成学习方法,在实际

学位

集成学习决策森林子空间选择特征窗口集成优化

C/C++安全检查工具中抽象语法树的设计与实现

本文所做工作是科研课题“C/C++软件安全检查工具”的一部分。根据该课题的实际要求,本文在充分研究C/C++语法结构的基础上,主要做了以下工作：首先,基于分析器自动生成工具ANT

学位

安全漏洞静态安全检查抽象语法树ANTLR

大数据背景下并行动态关联规则挖掘研究

其他学术论文