基于聚类和密度的离群点检测方法

被引量 : 0次 | 上传用户:zbwang12315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测方法已经在统计和机器学习领域引起了越来越多的关注,因为它广泛的应用于机器故障检测、信用卡欺诈检测、网络入侵检测和股票市场分析等领域。离群点就是数据集中那些明显不同于其他点的特征的数据点。根据模型的性质,现存的离群点检测方法可以分为以下几类:基于统计分布的方法、基于距离的方法、基于密度的方法、基于聚类的方法和基于模型的方法等。尽管离群点检测领域有如此繁荣的发展,但现存的方法在使用上仍存在一定的限制。本文主要针对k均值聚类方法和基于密度的经典的局部离群因子检测方法(Local OutlierFactor,LOF)进行改进。本文的主要工作包括:(1)本文先应用k均值聚类方法将数据集分类。我们认为分布在类中心附近的点是离群点的可能性很小,因此将这样的点从各类中剪枝。之后,我们计算剩余数据的LOF值。通过剪枝数据集,有效的减少了LOF的计算量。最终我们在剩余数据集中选出LOF值最大的前n个点作为离群点。以LOF方法作为基础比较算法,通过在人工数据集和真实数据集上的实验结果表明,本文给出的算法在保证较高的算法精度的同时,能够有效降低算法运行时间。(2)根据k均值聚类算法对离群点敏感这个特点,本文给出了一种带L1惩罚因子的k均值聚类离群点检测方法[30]。本文选择L1惩罚因子,是由于L1正则化能够产生稀疏解,并且相对容易求解。因此本文将L1正则化方法融入到离群点检测的问题中,并最终通过实验验证了本文给出的方法的有效性。最后本文指出了上述两种方法的未来研究方向。
其他文献
现阶段,伴随着农村经济的飞速发展,农村废弃物问题也日趋突出。农村废弃物数量多、种类复杂、筛选难度大是目前农村生态环境中存在的重大问题和普遍现象。特别是在丘陵地区的
四甲基吡嗪,又名川芎嗪,是中药川芎中的有效活性成分,在治疗脑血管、肺水肿、胃溃疡、肾衰竭等疾病方面有显著疗效,在临床上作为常备药品广泛使用。四甲基吡嗪又是一种重要的
<正>第十五届国际消防设备技术交流展览会将于2013年5月7日至9日在北京奥林匹克中心的国家会议中心隆重举行。为使广大企业进一步了解和更充分地做好展览会的准备工作,日前,
区域经济发展的空间关联研究已经成为现代经济学的研究热点之一。尽管国内越来越多的学者引入ESDA的方法来对区域经济进行空间关联分析,却很少有学者从理论上借助于空间自相
第一章广州市海珠区社区人群高血压患病率调查及相关危险因素分析[研究背景]高血压是严重危害人类健康的常见心血管病之一,也是全球范围内的重大公共卫生问题。是脑卒中发病
企业社会责任越来越受到社会各界的关注,企业履行社会责任会对企业产生怎样的影响,成为理论界和企业界关注的焦点。随着利益相关者理论的兴起,许多学者开始探讨企业社会责任对利
基于反末敏弹告警系统的研究背景,本文以一种典型外军末敏弹型号产品为研究对象,采用理论分析、数值计算与图像仿真相结合的方法对末敏弹全弹道的运动规律及可视化进行了研究
呃逆是临床中常见的症状,俗称打嗝,亦称为膈肌痉挛。其发生机制往往是某些因素导致一侧或双侧的膈肌,或迷走神经、膈神经受到刺激使膈肌阵发性痉挛而产生。当呃逆发作频繁,症
为了使在城市中工作的青年群体解决住房问题,现阶段的长租公寓越来越受到各界人士的关注,也为青年人群提供了优质的住房保障。本文就基于某地区的青年长租公寓作为实例开展研
随着我国教育事业的发展,以人为本的教育理念已经替代了传统的教育思想,并在高校的教育实践中逐渐形成了系统化、可操作性强的高校教学观,完成了由纯粹的理念体系向具体实践