SLOT:基于估计的高效子空间局部离群点发现

来源 :第十九届全国数据库学术会议 | 被引量 : 0次 | 上传用户:mubila
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点发现(outlierdetection)是数据挖掘(datamining)的一项重要技术,其目标是发现数据集中行为异常的少量数据对象,这在网络监控、金融欺诈、数据清洗等许多领域都有着很强的应用背景.对于不同数据区域之间密度差别较大的数据而言,基于密度的局部离群点定义比较有效;对于分布稀疏的高维数据,需要在子空间中定义离群点以克服"维度灾难"(curseofdimensionality).对现实生活中的数据要同时考虑"局部"和"子空间"的性质.简单地将现有的寻找局部离群点和子空间离群点的方法结合起来是不可行的.本文提出一种针对高维种属(categorical)属性的数据集,在子空问中进行局部离群点检测的方法SLOT(Subspace Local Outlier Test),它具有如下 本文其余部分组织如下:第2节简单介绍现有的离群点发现方法;第3节详细描述基于密度的局部离群点定义,并举例说明其不足;寻找子空间局都离群点的具体算法在第4节中给出;第5节是相关实验和讨论;最后,总结全文,并给出了本文的后续工作。
其他文献
关联规则是由Agrawal等人首先提出的一个重要的KDD研究课题,它反映了大量数据中项目集之间有趣的关联或相关联系.发现频繁项目集是关联规则挖掘应用中的关键技术和步骤.近年
会议
Internet的迅速发展,使其成为全球信息传递和共享的最重要资源,如何利用Internet上的大量信息成为亟待解决的问题.由于Internet上的数据多以半结构或无结构的形式出现,因此传
会议
目前,在数据仓库的数据清洗过程中,数据的不完全问题,并不受重视。现有的处理方法之一是直接去掉带缺失项的记录,这一方法虽然筒单,也使我们失去了许多有用的信息,甚至会使基于该数
会议
本文提出的算法EBNC一次处理整个数据集合的样本,因而速度比较快。这个算法基于Shannon信息理论,对于处理离散取值的属性有较高的准确性,同时保留了在引言中所述的Bayes网络的两
数据挖掘的优势在于它能从大量数据中提取人们感兴趣的、事先朱知的知识和规律。因此,基于数据挖掘的异常入侵检测方法可以不依赖于经验而检测出未知的攻击。但是,建立异常检测
会议
在国际金融外汇市场上,各个国家的金融机构或个人投资者通过对各国货币的买卖行为来获取投资利益.为了控制风险,交易员(或客户)要随时了解各种货币的汇率及其变化趋势的实时
会议
本文试图探索分类器在分类随时间推进的过程中面临的演变需求,该需求是外界的扰动对训练观念的改变弓陷的。本文从以下两方面进行了介绍:1.训练数据的属性特征选取需要变化。2.
数据挖掘是从数据中识别出有效的、新颖的、具有潜在效用的以及最终可理解的模式的高级过程.目前关于数据挖掘的研究很多,但大多数只着眼于挖掘算法,对于整个挖掘过程的研究
会议
在电子商务运行过程中,每天的业务都会产生大量数据,这些信息被Web服务器自动收集并经过处理转换为交易数据库,从交易数据库中可以通过不同的数据挖掘方法发现知识,聚类分析
会议
从E.F.Codd的一系列论文开始,关系数据库的理论研究已有三十多年的历史了.虽然近年来备受人们关注的从数据库发现知识(KDD)的很多课题都是从关系数据库中发现知识的,但由于两
会议