基于Spark的频繁封闭高效用项集挖掘算法研究

来源 :青岛理工大学 | 被引量 : 0次 | 上传用户:xiaowangjianfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从数据集中提取出有价值的信息是数据挖掘领域的一项重要任务,其中关于频繁项集挖掘和高效用项集挖掘的研究已成为热门问题。但无论是在频繁项集挖掘还是高效用项集挖掘,单一的度量都难以体现出项集的更多价值,而且在这两个挖掘任务中所挖掘出的项集结果的数量过于庞大,使得用户对结果的处理十分耗时。针对以上问题,本文的主要工作和创新点如下:
  1.为挖掘出更具有价值的项集,本文将支持度度量和效用度量相结合,并引入了封闭项集的概念来减少结果项集的数量,提出了频繁封闭高效用项集挖掘问题。频繁封闭高效用项集作为紧凑表达式,不仅数量较少,还可以提供无损信息。
  2.针对频繁封闭高效用项集挖掘问题,本文提出了FrequentClosedHigh-UtilityItemsetMiner(FCHUIM)算法,并提出了多个高效的数据结构和剪枝策略以提升算法性能。其中包括采用了总计列表结构,该结构用于存储项集信息并使算法能够快速访问这些信息;提出了拓展效用剪枝上界,该上界比以往算法所采用的剪枝上界更加紧凑,可以过滤更多的非高效用项集;采用了预检查方法,该方法是一种结合算法的结构与项集的生成顺序所提出的项集包含关系检测策略;提出了嵌套列表结构,该结构可以将筛选后的频繁封闭高效用项集的候选项集按其支持度值存入不同数据块中,使得算法能进一步淘汰非频繁项集的同时能高效挖掘在每一个数据块中的频繁封闭高效用项集。最后,通过在真实数据集和合成数据集上进行的仿真实验验证了FCHUIM算法的有效性,且相对于最新的封闭高效用项集挖掘算法CLS-Miner和CHUI-Miner,本算法拥有更高的性能。
  3.随着大数据技术的发展日趋成熟,许多数据挖掘算法都使用分布式平台来提升算法自身的性能和效率。为了满足快速挖掘大数据集的需求,本文采用了Spark平台来实现FCHUIM算法的分布式并行化,并提出了ParallelFrequentClosedHigh-UtilityItemsetMiner(PFCHUIM)算法。仿真实验表明该算法能够满足大数据环境下对频繁封闭高效用项集挖掘的需求,同时大幅提升了算法的性能,具有有效性和可行性。
其他文献
数字图像的内容丰富多彩,在商业、政治、军事等诸多领域得到广泛应用。云计算和互联网的迅速发展使大量的图像在网络中存储和传输,然而这些图像往往包含私人信息、企业的重要数据和军事机密信息等,因此防止图像信息泄露成为一个迫在眉睫的问题,图像隐写成为信息隐藏领域的研究热点。目前,深度神经网络在诸多领域取得良好的成果,正逐步向图像隐写领域渗透,并表现出其潜在的应用价值。本文主要从载体修改和无载体信息隐藏两方面
学位
图像是多媒体工具当中最重要的一种信息表达形式,被广泛应用到商业管理、教育教学、军事训练以及家庭生活等人类活动的诸多领域。互联网与多媒体技术的发展使得大量的图像数据在网络上存储和传输,而这些图像数据中很大一部分涉及到了个人隐私或者商业机密等秘密信息,因此,图像数据传输与存储的安全性问题亟需解决。图像隐写术是将涉密图像隐藏到非涉密载体当中,从而隐藏涉密图像的存在,达到信息安全隐蔽传输一种技术。传统的图
滚动轴承作为机械设备的关键支撑部件,由于长期在复杂工况下运行,极易产生各种故障,导致机械设备工作状况恶化。随着传感技术的迅速发展,对机械设备运行过程中顺序、大量、快速且持续到达的流数据进行不停机故障检测变得尤为重要,具有明确的学术价值和应用需求。然而,对于滚动轴承在线异常检测问题,目前仍存在以下问题:1)检测模型无法适应在线数据的轻微波动,使得检测模型将正常样本误判为异常,从而引起较高的误报警率;
学位
在公共卫生方面,传染病对人类生产生活的影响是全方位的,不仅会造成患者身体的不适或功能障碍,还会由于重大传染病的流行而引起人民的恐慌情绪和社会动荡,甚至能够阻滞国家的经济发展。媒介传染病是一类由动物传播的急性传染病,其中蚊媒传染病的占比较高。近年来随着全球气候变化、生态变化、人口流动和城市化等多种自然和社会因素的影响,直接或间接驱动了蚊媒传染病影响范围的扩大和爆发强度的增强。有效及时的预测传染病的暴
学位
按需服务是云计算模式的特色,能够大大降低云平台用户的计算成本。弹性资源管理是云平台实现按需服务的重要手段,而基于负载预测的自动伸缩技术是实现弹性资源管理的重要技术,负载预测的准确性成为影响弹性资源管理性能的关键。随着云平台规模的迅速扩大,计算资源的需求量、种类快速增长,如何对大量的、复杂多样的负载数据建立有效的预测模型,成为大规模云平台负载预测亟待解决的问题。为此,本文从利用任务负载序列间结构化信
学位
计算机网络和多媒体信息处理技术的飞速发展给我们的日常生活带来了很大的便利和效率,同时越来越多的数字信息被存放于公开的网络环境当中,面临着前所未有的被非法获取或者恶意篡改的风险。因此,数字信息的隐私保护以及安全管理问题变得尤为突出。密码学是实现数据隐私保护的主要技术手段,信息隐藏则是保护宿主以及隐秘信息安全传输的主流方式,将二者相结合则可以在保护数据隐私性的前提下通过嵌入信息实现对宿主有效的安全管理
学位
多Agent协作追捕问题研究的是由多个Agent组成能相互协作的团队,去追捕另外一个或一群移动的Agent。多Agent协作问题是多Agent系统的研究热点,而多Agent协作追捕问题是多Agent协作研究中的一个典型问题,这些典型问题的研究成果中所涉及的关键技术已被广泛应用于军事,工业等,如战场搜救,捕俘动作,代理合作,军队包围并抓获入侵者,空战等领域。  多Agent协作追捕问题中,逃跑者与追
即将到来的万物互联时代为人机交互领域提供了巨大的发展机遇,言语交互是人机交互中最自然,最便捷的交互方式。言语情感识别是言语交互中非常重要的一环,只有准确地识别说话人的言语情感信息,才能理解说话人的言外之意,实现有效言语交互。互联网环境中,言语情感信息可以在文本(如微博等)和语音两个言语通道上进行传递。文本情感通常是指说话人有意识的情感表达。从情感言语生成角度看,说话人的心理和生理状态都会反映在言语
学位
随着硬件设备的不断发展,三维激光扫描技术凭借着其高精度、非接触、自动化等特点逐渐在数字城市建设中扮演更加重要的角色。但是,语义信息的缺乏以及人工干预等导致的低自动化问题一直是一个挑战性且亟待解决的问题。作为一个开放的数据模型,并支持存储和交换的CityGML,是可用于多种应用程序的三维模型,相比于其它数据格式,CityGML具有很大的优势。CityGML具有对象语义、几何、拓扑表达一致性等特点,可
学位
在万物互联的时代,从设备产生的海量的数据需要被处理,由于本地设备的性能的不足以及当前云计算场景的高延迟的情况,使得越来越多的新兴业务得不到满足,因此边缘计算(edge computing)应运而生。本地设备可以通过卸载技术来解决这些新兴业务遇到的问题。边缘计算中计算卸载技术即将移动终端的计算任务卸载到边缘网络,解决了设备在资源存储、计算性能以及能效等方面存在的不足。同时相比于云计算中的计算卸载,边
学位