基于距离的离群挖掘算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:kebo824
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测作为知识发现的重要部分,被广泛的应用于欺诈识别、入侵检测、故障诊断及恶劣天气预报等领域。近年来,随着人们对离群数据挖掘重要性认识的不断加深,以及其越来越广泛的应用,离群点挖掘成为了数据挖掘领域的热点之一。离群点检测算法大致可分为:基于分布的方法;基于深度的方法;基于距离的方法;基于密度的方法和基于聚类的方法。其中基于距离的离群检测算法可以灵活的制定距离函数、有效的获得离群点的信息。然而现有的算法在实际应用过程中还存在着一些不足,如初始参数的选取需要通过经验获取,算法在高维、大数据集上的运行效率等。目前在基于距离的离群检测算法上提出了一些先进的算法,如KNN算法。本文针对KNN算法对离群点检测的效率和精度进行了研究,在此基础上提出了加权KNN的算法思想。通过在传统的KNN方法的基础上为每个数据点增加了权重,其值为与最近的k个邻居的平均距离,离群点为那些与第k个邻居的距离最大且相同条件下权重最大的点。通过权重的引入,提高了离群点检测算法的精度。论文的主要工作包括:①研究了数据挖掘和离群数据挖掘的背景、现状和研究意义,分析了现有的离群点检测算法,对比了常用的离群点检测算法的优缺点、适用范围。②研究了数据挖掘相关技术和算法,如数据挖掘前的一些数据预处理技术;以及一些聚类算法。③在经典的KNN离群检测算法的基础上,提出了一种改进的基于加权KNN的离群点检测算法,通过为每个点增加权重来提高离群检测的精确度,并通过实验验证了其检测精度优于原算法。④采用UCI的Breast Cancer Wisconsin数据集验证了算法的精度;通过模拟的大数据集验证了算法在不同数据量和数据维数下的时间效率,并同原算法在相同维数条件下,时间效率与数据量大小的关系进行了比较。实验结果表明:本文提出的基于加权KNN的离群检测算法能有效的检测出数据集中的离群点,且比传统的KNN算法有更好的时间性能。
其他文献
在三维地理信息系统(GIS)中,三维数据模型与数据结构是研究的核心。从数据描述格式的角度划分,三维空间数据模型可以归纳为面模型和体模型两种。由于体模型可以把空间对象以离
近年来,片上多核处理器成为主流,国产芯片龙芯也推出了四核处理器-龙芯3A。为了充分利用多核处理器的片上资源,使多核处理器的硬件资源转变为程序性能的提升,并行程序设计变
词是语言中最小的能独立运用的单位,是自然语言处理的基本单位。词法分析是自然语言处理的一个基础课题,其主要研究内容是进行词语切分和词语标注。语言学上,按照词的形态结
图像分割作为图像智能化处理的重要发展方向,受到图像处理界的高度关注。遥感图像分割作为图像分割中一个重要应用,深受研究者的重视。由于遥感图像与其他类型图像相比,具有
随着信息技术的快速发展,大量的软件产品已渗透到各行各业。如何保证软件的质量问题成为一个关注焦点。软件测试是确保软件产品质量及可靠性的主要途径,其地位是无可替代的。
随着海洋技术的发展,水下通信网络,作为通信网络的一个重要分支,在海洋监测、水下定位、海洋资源勘探等方面发挥了重要的作用。但是,水下通信网络的研究也有一定的困难,有很
人工智能是计算机科学的一个分支,目的是使机器能够像人类智能一样感知环境并最大化达到目标的可能。机器博弈是人工智能极具挑战的分支之一,其研究对人工智能的发展具有积极
人脸识别技术作为最具有发展潜力的生物特征识别技术之一,在最近几年得到了广泛的研究和应用,尤其是基于视频的人脸识别技术。本文重点研究基于视频的近距离人脸识别方法,主
随着电子商务的迅猛发展,用户购买和使用产品之后会在Web上发表对产品的评论,产品评论的自动挖掘对于商家和潜在的消费者有着重要意义。本文以中文产品评论为主要研究对象,从
项目调度问题是一类具有顺序约束和资源约束的组合优化问题,是典型的NP难问题。机器调度是特殊的项目调度问题。   本论文以最小化完工时间为优化目标,研究两类典型的机器