【摘 要】
:
异常检测作为数据挖掘的一个重要分支,其应用范围非常广泛,如欺诈检测、入侵检测、生态灾难预警、公共健康、制药领域、反垃圾、气象预报等。随着移动互联网、云计算、物联网的快速发展,数据的生产者、生产环节都在极速攀升,不仅数据量呈指数级增长,数据的维度也在不断增大。针对高维数据处理所面临的“维度灾难”问题给传统异常检测方法带来了巨大挑战。孤立森林是一个经典的异常检测方法,它利用超平面切割数据空间隔离异常的
论文部分内容阅读
异常检测作为数据挖掘的一个重要分支,其应用范围非常广泛,如欺诈检测、入侵检测、生态灾难预警、公共健康、制药领域、反垃圾、气象预报等。随着移动互联网、云计算、物联网的快速发展,数据的生产者、生产环节都在极速攀升,不仅数据量呈指数级增长,数据的维度也在不断增大。针对高维数据处理所面临的“维度灾难”问题给传统异常检测方法带来了巨大挑战。孤立森林是一个经典的异常检测方法,它利用超平面切割数据空间隔离异常的策略减少了所有基于距离和密度方法种的大量距离计算损失,使得算法拥有低线性时间复杂度和较少的内存需求,对高维数据有较强的适应性。本文在研究孤立森林算法的基础上,通过结合信息熵理论进一步提高了算法对高维数据的检测效率。主要改进思路是用信息熵度量属性值的空间分布情况,进而确定该属性作为分割属性的价值大小,通过属性选择构建出具有更强异常隔离能力的孤立树,从而优化孤立森林算法。经实验验证表明,改进算法在大数据集尤其高维数据集上表现出了优于原算法的检测性能。此外,本文还研究了当前应用最为广泛的大数据计算框架Spark,并实现了改进算法在该平台上的并行化,很大程度上缩短了了算法的运行时间,使改进算法能够更快更好地处理高维数据。
其他文献
比兴传统是中国古典文学史上一种最常用的文学表现手法,它广泛的应用于我国古典文学诗词创作中的各个方面,比兴传统从《诗经》开始运用到诗词的创作中,经历了魏晋南北朝、隋唐、宋元明清等历朝历代,比兴的含义和概念更趋完善和系统化。 比兴传统不仅仅用于诗词的创作领域,而且也应用于文学批评的领域,从这个意义上说,也是一种文学批评手法,文论家常常运用比兴的观念对文学作品进行艺术性的审美和批评。有清一代,不论是文
原核细胞分裂是由一系列被称为分裂体的蛋白质复合物介导的。这种分裂体的组装是由微管蛋白同源物FtsZ在未来的分裂位点聚合成环状结构,即收缩环(Z环)开始的。细菌微管蛋白同源物FtsZ与GTP结合并聚合成细的原丝纤维,既可以作为募集下游分裂蛋白形成Z环的支架,还可能产生启动细菌细胞分裂的内向力。在大肠杆菌中,Z-环含有20多种相关蛋白,其中既包括负调控因子,也包括正调控因子。负调控蛋白MinC和Sul
细菌在其生长和繁殖过程中,进化产生了七种不同类型的分泌系统(Ⅰ-Ⅶ型)。Ⅵ型分泌系统(T6SS)是最近几年发现的一类结构复杂的接触依赖型的效应蛋白分泌途径。该系统主要是通过其复杂的结构接触细菌或真核靶细胞,将一些效应蛋白分泌进入靶细胞内部。目前研究发现Ⅵ型分泌系统的主要功能有:(ⅰ)介导细菌与宿主细胞之间的相互作用;(ⅱ)参与细菌和细菌之间的“战争”;(ⅲ)增强细菌自身对极端环境适应的能力。因此,
在植物漫长的进化历史中,地质运动以及气候变迁等事件驱动着植物生境的多次变化,并逐渐演化成为现存的地理分布格局。作为生物多样性的重要基础,遗传多样性是物种长期生存、进化和适应的结果。历史和现代微进化过程造就了当代物种的遗传多样性和遗传结构。高山栎组植物(Quercus sect. Heterobalanus)是一类硬叶常绿的栎属植物,集中分布于横断山脉地区,其现存的分布格局与喜马拉雅-横断山脉的隆升
该文采用人工神经网络对短期负荷预测问题进行研究.针对美国东北地区的PJM电网,根据其历史负荷数据对影响当地负荷特性的因素进行了分析,在分析的基础上,运用神经网络按日型、季节建立了日负荷预测模型,按日型建立了小时负荷预测模型.在面向对象的编程思想指导下,开发了包括神经网络类、遗传算法类和节日算法类的类库,在神经网络的实现上,可以生成任意复杂的多层前馈网络预测模型.此外,建立了节日查询算法来查询部分重
对于柴油机微粒排放的控制,目前普遍采用的是柴油机微粒过滤器(DPF),通过这种方式能除掉绝大部分的碳烟微粒.然而过滤器的再生却一直是一个很难解决的问题.该文采用了一种新的方法对柴油机微粒过滤器的再生进行了试验研究,即利用HO分解产生的活性基团和碳烟进行反应,从而在较低的温度下将碳烟烧掉.试验在165FA柴油机试验台上进行,应用了壁流式不锈钢丝网滤芯的过滤器,并取得了良好的再生效果.在离线和在线两种
随着我国现代化的进程不断加速,城市与城市之间的交通以及城市内部间的交通设施越来越完善,为了更好的进行城市管理和提供市民更好的生活质量,智慧城市与智慧交通等领域在全国各城市快速兴起。为了更好的管理交通,交通标志牌的完好是必不可少的,纵观国内外,很多学者对交通标志的检测与识别做了大量的研究,但鲜有研究人员针对交通标志牌上的交通标志是否被遮挡进行研究,所以本文主要针对交通标志牌上遮挡物的检测与识别进行研
4K高清、5G互联网等技术给予了人们随时随地记录和分享所见所闻的机会。人们在追求传播速度的同时,也开始追求质量。由于高动态范围图像可以记录普通动态范围图像以外的信息,受到了各行各业的关注,例如电影、游戏等行业。与普通的动态范围图像不一样,高动态范围图像的动态范围很广,而且不同的高动态范围图像的动态范围不尽相同。一般显示器只能显示一定动态范围内的图像难以用一种显示器去显示所有的高动态范围图像,还要求
序列密码是对称密码体制的重要实现方式之一,在密码算法的设计中,常常使用非线性函数作为基本的密码部件,使用布尔函数是实现非线性函数的一种有效途径。为了抵抗已知的密码攻击手段,非线性布尔函数必须具有理论可证明的能够有效抵抗已知密码攻击的性能。2003年之前,在流密码中使用的布尔函数必须同时兼具以下几个性质:平衡性,高非线性度,高代数次数,高的弹性阶以及良好的自相关性质。Courtois和Meier于2
推荐系统的目标就是根据用户过去的行为和偏好,对用户未来的行为或偏好做出预测和推荐。因此,大量的用户行为数据的存在成为了推荐系统使用的前提条件。对于像阿里巴巴、京东商城这样的大型电子商务网站来说,他们已经累积了海量的用户数据,但对于一些小型的、更专注于推荐任务的网站,他们则希望在开始阶段就能够对用户进行个性化推荐,如何在缺乏大量的用户数据的情况下对用户行为或偏好做出精确的预测成为了推荐系统的一大难题