异常点挖掘:技术与应用

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:chiivy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常点挖掘,是一种寻找给定数据集中潜在反常对象的重要数据挖掘技术,它在网络入侵检测,诈骗行为分析与预警,以及病症分析等领域中有着广泛的应用。异常点挖掘同分类技术、聚类技术和关联规则挖掘技术,并称为数据挖掘的四个主要研究领域。异常点挖掘的研究非常重要,主要是由于:1.它对数据分析的结果有一定的影响,异常点的存在影响了数据分析结果的准确度;2.在实际应用中,异常点挖掘可以帮助人们发现潜在的、反常的甚至是有害的对象,正确识别出异常点有利于做出较为全面和合理的决策;3.异常点挖掘经常导致新的知识的发现。  异常点还没有普遍接受的定义,对异常点的研究都是在一定的定义下进行的。异常点挖掘技术与特定的数据类型和数据环境联系紧密,具体解决方案也因各类数据的不同特征而不同。已有的异常点挖掘研究主要涉及以下几种类型的数据:流数据,时间序列数据,传感器数据和移动对象轨迹数据等,然而对空间网络中受限数据的异常点挖掘的研究较少。分析发现,已有的异常点挖掘技术并不适用于受限空间网络中的数据。空间网路中受限数据的异常点挖掘技术可用于交通拥堵分析,基础设施布局等实际应用。  已有的异常点挖掘算法中,大多是假定数据集中分布在一张单表上的,而实际应用中很多数据是分布式的。某些情况下,由于数据规模和传输距离的原因,将数据集中起来是不现实的。已有分布式异常点挖掘的研究成果是监督的(supervised)、基于合奏(ensemble)的技术,需要预先知道分布式节点各自的数据模型,然后分布式节点的数据模型被合奏起来,分布式节点使用合奏模型对其内的每个对象计算异常值。而非监督的(unsupervised)、适用于大数据量的分布式数据的异常点挖掘的研究较少。  在本文中,引入了空间网络中全局异常点的定义。并在此基础上提出了一种聚类-剪枝的策略来高效发现受限空间网络中的全局异常点。空间网络中,由于在同一条边上的受限对象呈现线性特征,使用聚类算法将在同一条边上的邻近对象压缩到聚类中,并通过一个有效的两路搜索算法KNNC估算每个聚类的K个近邻,同时,结合全局异常点的定义,能够以聚类为单位淘汰那些不可能包含top-n全局异常点的对象,将全局异常点挖掘的目标限制在一个较小的范围内,提高了全局异常点挖掘的效率。  空间网络中的局部异常点挖掘能够反映空间网络中受限数据呈现的局部特征。在空间网络中全局异常点挖掘的基础之上,引入了空间网络中局部异常点的定义。在挖掘局部异常点时,同全局异常点挖掘类似,采用聚类技术压缩空间网络中的受限数据,并以聚类为单位估量其内对象异常值的范围,剪枝不可能包含top-n局部异常点的聚类,将局部异常点挖掘的目标限制在较小的数据范围内,提高了局部异常点挖掘的效率。  针对水平分布的数据集上异常点挖掘的问题,提出了一个改进的基于Birch聚类的分布式数据集上top-n异常点挖掘的算法MOD。MOD算法中,首先各分支节点同步地构造特征向量树CF-tree,并使用K-Means算法对CF-tree的叶结点聚类生成聚类,将聚类结果发送到查询节点。在查询节点估量各个聚类异常值的范围,并排除大量的不包含top-n异常点的聚类,最后对剩余的候选聚类中的对象做具体异常值计算。MOD能够避免大量数据的传输和集中,在不太影响检测结果的准确度的前提下,较好地提高了异常点挖掘的效率。
其他文献
多核处理器已经成为处理器体系结构的主流发展方向。多核处理器中,高速缓存(Cache)结构通过将共享存储空间中的数据缓存在本地,加速了数据获取的过程,同时也带来了多核间数据一
查找效率问题是构建P2P网络的一个根本性问题,利用分布式哈希表,结构化的对等(Peer-to-Peer,简称P2P)网络具备了较少的路由跳数,然而此路由跳数只是P2P覆盖网络中的路由跳数,并没
随着Web的迅速发展和普及,可以获取信息的种类和结构日益丰富,从传统关系数据库到分布于Web上的大量半结构化信息,以及日益增多的HiddenWeb数据信息。如何实现基于Web的分布式信
随着人机交互技术的发展,各种新的交互手段不断涌现,使人机交互朝着更加自然、高效和更加智能化的方向前进。基于视频的交互(VBI,VisionBasedInteraction)或基于摄像头的交互(CB
学位
网络的对等技术(Peer-to-Peer)和网格(Grid)研究的深入,有力地推动Intenet上信息服务的发展。信息服务包括:分布式部署、信息的发现、存储服务、查询服务、服务组合、内容发布与
最近几年,因特网“杀手级应用”已经由Web浏览演变为P2P,基于P2P的下载工具已经成为因特网上最流行的下载软件。研究表明,P2P流量已经消耗了60%以上的网络带宽。P2P业务的不断增
现有的结构模式识别方法一般应用在已知的领域,要对一个不了解的专业领域实行结构模式识别,必须首先获取该领域的专业知识,而这往往要耗费很多的时间和精力。本文提出了一种独立
形式化开发安全保证技术是高安全等级操作系统的关键技术难点,国内尚未见相关研究成果,论文围绕高安全等级操作系统开发的整个生命周期,研究了安全策略模型和顶层规范的形式规范
传统高速互连网络中,采用基于客户机/服务器和消息传递的通信模型。在这种模型中,不仅需要软件为通信双方建立起连接,数据的传输过程也需要调用网络协议栈、文件系统以及存储管
安全多方计算是近年来发展起来的一个研究方向,是密码学的重要分支,许多基础的密码学问题比如认证、密钥交换、签名等都可以用安全多方计算协议来解决。而秘密匹配问题是安全多