基于分布式平台的高效用数据挖掘算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:milksnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网与大数据时代的到来,各行各业的数据都呈现爆炸式的增长,对现有的存储方案以及数据挖掘带来重大的挑战。数据挖掘技术不仅能够有效地处理已有的数据,而且能够从海量的数据中挖掘出有价值的信息,从而为实际的生产、运营和发展提供正确的导向作用。频繁项集挖掘(Frequent Itemset Mining,FIM)是数据挖掘的一个基础方法,常被用来挖掘各个事物之间的联系。FIM仅考虑事物出现的次数,没有考虑其本身的价值,因而有学者提出了高效用项集挖掘(High-Utility Itemset Mining,HUIM)的方法。HUIM综合考虑事物本身的价值和频率两个因素,相比FIM拥有更实际的导向作用。HUIM的目的是在给定的数据集中挖掘出所有高于阈值的项集。针对现有的HUIM算法存在的执行时间长、占用内存高等问题,本文提出了基于改进数据集的高效用数据挖掘算法(Efficienthigh-utility itemset mining based on a novel data structure,EIM-DS)。为了进一步提升EIM-DS算法的执行效率,提出了基于多线程的EIM-DS算法。针对数据集过大而导致的单机无法在有限的时间内挖掘的问题,提出了基于分布式并行的HUIM算法。本文的主要工作如下:(1)提出了基于改进数据集的高效用数据挖掘算法来解决传统的高效用数据挖掘算法存在的耗时高、内存大的问题。首先,通过引入新的数据集结构来重构数据集,提高数据集的利用率;其次,提出了循环事务加权效用值(Transaction weighted utilization,TWU)剪枝的策略,来减少项集的长度;然后提出了构造树的概念来缩小搜索空间,使用压缩存储的方式来减少构造树的存储空间;最后,在搜索过程中提出了两种新的剪枝策略,即拓展集剪枝和局部TWU剪枝;同时提出了一种快速计算的方法来计算这两种上限,进一步缩小搜索空间和提高算法的执行效率。与现有的HUIM算法相比,EIM-DS算法在执行时间和内存两方面均有较好的表现。(2)由于EIM-DS算法中,提出的改进数据集和压缩存储后的数据有着只读不写的特性,可以被多个线程同时使用,本文因此提出了基于多线程的EIM-DS算法(T-EIM-DS)以进一步提升算法的效率。T-EIM-DS算法相比于单线程版本,执行时间随着线程数的增多而递减,内存增长小于其线程数。(3)依托Hadoop平台易部署、低开销和高伸缩性等特性,提出了一种分布式并行框架,使用EIM-DS算法和EFIM算法作为并行的算法,提出了两种分布式高效用项集挖掘算法:P-EFIM(Parallel EFficient high-utility Itemset Mining)算法和P-EIM-DS算法。首先,计算项集的TWU值并排序,根据排序后的项集序列对数据集进行重新编号和去除低效用项,以提高数据集的利用率。Map阶段将整个任务分解成多个独立的子任务,为了确保每个节点的负载均衡,提出了S型的分配策略将多个子任务均匀地分配到各个节点。在Reduce阶段,P-EFIM算法和P-EIM-DS算法分别采用EFIM算法和EIM-DS算法对子任务进行高效用项集挖掘。与同样采用MapReduce框架的PHUI-Growth算法相比,P-EFIM算法和P-EIM-DS算法在时间性能上有着明显的提升。本文提出了HUIM算法的改进算法,通过多线程的方式,进一步降低了算法的执行时间,引入了分布式计算,解决了大规模数据集难以挖掘的问题,拓宽了高效用项集挖掘领域的研究范围。
其他文献
背景神经元增殖和分化障碍影响创伤性中枢神经系统损伤后的修复和再生,进一步会产生各种各样的神经系统疾病。前期实验结果证明PTEN沉默会促进PC12的增殖和分化,提示PTEN可能
电力系统运行时用户侧负荷不平衡现象时有发生,如何解决由此导致的系统参数不平衡、供电电压质量变差、功率因数降低等问题是当代学者研究的课题,随着工业发展,大负荷投入带
USB通用串行总线作为一种标准高速串行总线接口,其极高的数据传输速度,能满足许多高速数据传输的应用环境需求,而且因其兼有供电简单、连接方式灵活、兼容性好、支持热插拔等
海上或空中进行分布式雷达组网通常只能依靠无线通信。由于战场复杂电磁环境的影响,无线通信的符号错误概率通常会高达10-2。为了实现信息的可靠传输,通常采用信道编码和重传
随着我国智能制造业的改造升级,工业机器人需求剧增。人机协作是机器人发展的重要特征,车间中各种类型机器人与人协同工作,处于弱势地位的工人安全隐患相对较大。据美国劳工
聚醚砜(PES)具有机械稳定性、化学稳定性、耐热性、耐腐蚀、抗氧化、耐氯、耐有机溶剂、耐热等优良性能,常作为超滤、纳滤膜的材料。同时由于聚醚砜有着十分优异的生物相容性
激光多普勒测速是一种利用光学多普勒效应的进行速度测量的先进技术,相比于传统的测速手段,例如加速度计、GPS等,激光多普勒测速具有测量精度高、响应速度快、测速范围广且非
随着社会进步和科学技术的发展,传感技术得到了广泛的应用。超弱光纤光栅(Ultraweak FBG)作为光纤光栅传感光纤传感领域的新的类型,具有对光信号传输时损耗小、机械强度高、
文本生成图像是一项能够将一段描述性的文字转化成图像的技术,这不仅要求计算机理解文本所表达的语义信息,还要根据语义信息转化成与之匹配的图像信息,这是一个非常具挑战性
人类的肢体运动是骨骼在肌肉收缩的牵引下围绕关节运动产生的。测量或估计骨骼肌收缩力是探究运动行为和状态的基础。骨骼肌收缩时会产生肌力和肌电(Electromyogram,EMG),利