【摘 要】
:
关联规则挖掘作为数据挖掘的一个重要分支,用于发现数据当中隐藏的联系,为决策提供支持,在web挖掘、推荐系统、故障诊断等诸多领域有着广泛的应用。关联规则挖掘最核心、最耗时的步骤是频繁模式的获取。目前国内外已经开展了大量的研究来加快频繁模式的挖掘速度,但是随着大数据时代的到来,数据量越来越大,目前的频繁模式挖掘算法仍然无法满足日益增长的对挖掘算法时效性的要求。如何提升大数据环境下的频繁模式挖掘效率仍然
论文部分内容阅读
关联规则挖掘作为数据挖掘的一个重要分支,用于发现数据当中隐藏的联系,为决策提供支持,在web挖掘、推荐系统、故障诊断等诸多领域有着广泛的应用。关联规则挖掘最核心、最耗时的步骤是频繁模式的获取。目前国内外已经开展了大量的研究来加快频繁模式的挖掘速度,但是随着大数据时代的到来,数据量越来越大,目前的频繁模式挖掘算法仍然无法满足日益增长的对挖掘算法时效性的要求。如何提升大数据环境下的频繁模式挖掘效率仍然是目前数据挖掘领域面临的一个巨大挑战。为了提升频繁模式挖掘效率,本文开展了以下研究:(1)结合频繁模式挖掘算法当中经典的Apriori算法、FP-growth算法、ECLaT算法,提出一种基于事务映射区间求交的频繁模式挖掘算法IITM(Interval Interaction and Transaction Mapping)。该算法只需扫描两次数据集,第一次扫描生成频繁1-项集,第二次扫描生成条件模式树,接着扫描条件模式树将频繁1-项集映射到区间当中,通过区间求交来进行模式增长,从而避免了递归生成条件模式树带来的开销。同时本文还通过引入Hash存储结构存储项集的区间、利用布隆过滤器对候选项集进行筛选、优化区间求交的方式来进一步提高算法的效率。(2)本文在IITM算法的基础之上提出基于大数据处理平台Spark的PIITM(Parrallel Interval Interaction and Transaction Mapping)算法,该算法通过将不同后缀的条件模式基划分到不同的节点上使得各个节点的数据相互独立,从而可以在各个节点并行地进行频繁项集挖掘。同时该算法在划分数据时综合考虑节点的负载能力、节点当中原有数据分布,使得划分后各个节点的负载尽可能均衡,并且尽量将数据划分到拥有其条件模式基最多的节点从而减少数据划分阶段需要进行的数据交换。结合Spark大数据处理引擎来进行分布式数据挖掘,使得该算法更加高效、易于扩容、能够容错。最后本文实现上述算法并和其它同类算法在多个真实数据集上进行挖掘效率对比。实验表明在多个真实数据集上,在不同的支持度下本文提出的IITM算法以及其并行化改进算法PIITM算法都有较高的执行效率。
其他文献
随着科技的快速发展,越来越多的设备接入网络,网络中的数据量也呈爆发式增长,而有限的带宽资源并不能满足用户集中请求内容的需求。为了减少用户访问时延,提高用户体验,无线网络中的终端设备间引入了协同缓存技术。而设备间相互通信、内容共享的前提是已知相邻设备存在,即完成了相互间的邻居发现过程。因此,本文从设备间的邻居发现和协同缓存放置两方面入手,从而加快邻居发现的速度,增加缓存命中率,降低用户的访问时延。同
用户体验最早在HCI领域被提出,近年来受移动互联网热潮的影响而在国内大面积传播,然而这一背景下用户体验的火热大多集中在狭义对象的浅层经验,没能触及用户体验自身的学理讨论。随着上一轮移动互联网热潮衰退,原有始于外部的用户体验发展动力大幅消减,用户体验从业者有必要从系统化的知识与学理层面重新认识用户体验的本质内涵,继而探索新的阶段下用户体验的发展路径。受Saussure共时性与历时性概念的启发,本文以
儿童学习自由指的是儿童作为受教育者在教育中自觉、自主、自我指导的学习状态,包括选择自由、表达自由、交往自由和思想自由。只有拥有学习自由,才能使儿童在不断的学习中逐
推荐系统是数据挖掘等相关领域的重要研究内容,可解决信息膨胀带来的信息有效利用率骤降问题,在商品推荐等方面有着广泛的应用。基于评分矩阵的推荐系统存在数据稀疏性、不可解释性、同义词性、冷启动等缺陷;针对数据稀疏问题,研究者利用稀疏矩阵的低秩性质对矩阵进行约束,以此对数据矩阵进行补全求解,提出了基于矩阵补全技术的推荐算法。论文侧重针对数据稀疏性问题,围绕基于矩阵补全的推荐算法开展研究,主要研究工作如下:
图像去噪作为后续图像分析,诸如图像恢复,图像校准,图像提取,图像增强,图像建模等的基础步骤,去噪的效果的好坏直接影响着后续步骤的效果,所以图像去噪一直是图像领域内的一
高维特征的数据分析是当前数据挖掘和计算机视觉研究的热点,然而高维数据的维度灾难导致数据分析过程较为困难,且分析的结果往往不可靠。子空间学习方法通过将高维的人脸图像投影到其低维的子空间,最大程度保留高维数据之间的有效信息。将数据的低维子空间信息存储在表示矩阵中,用于进一步的数据分析和挖掘,可以获得较好的分类性能和计算复杂度。然而,传统子空间的学习方法无法避免数据噪声和异常值的影响,如何设计一个高性能
虚拟现实技术是计算机图形学中重要的研究领域,而针对风、云、雷电等自然界现象模拟技术的研究在虚拟场景中占据了很大的研究范围。动态三维云模拟通常包含建模与渲染两方面,
移动边缘计算是指在靠近用户端的移动网络边缘提供IT服务环境和云计算能力,从而创造出高性能、低延迟与高带宽的网络服务环境,极大提高了用户的网络体验。但是,由于移动边缘计算平台将部分网络服务功能下沉至网络边缘,在网络边缘可以进行计算卸载,从而导致计费功能难以实现。针对这一不足之处,本文研究了面向无线异构网络中策略用户的两个无线运营商针对移动边缘计算系统中业务数据本地分流的部分进行计费的问题。运营商需要
在宽带移动网络高速发展的推动下,实现能够覆盖全球的宽带通信系统势在必行。地面LTE可以为人们提供高质量的通信服务,但是因为部署难度,一些偏远地区的用户还无法享受LTE服务,而低轨卫星通信服务具有覆盖全球各地的优势,因此低轨卫星通信和LTE的融合是目前的研究热点。但是将地面LTE技术应用到低轨卫星通信中也会面临很多困难,卫星信道的大频偏、低信噪比等特点会对信号的正确接收产生很大影响。在LTE系统中,
高校是培养未来科技人才的摇篮,科学家精神培养是引育大学生献身科学事业的重要基石。其中,胸怀天下、心系苍生的爱国精神引领学生立志报国与服务人民;勇攀高峰、敢为人先的