论文部分内容阅读
离群点检测作为知识发现的重要部分,被广泛的应用于欺诈识别、入侵检测、故障诊断及恶劣天气预报等领域。近年来,随着人们对离群数据挖掘重要性认识的不断加深,以及其越来越广泛的应用,离群点挖掘成为了数据挖掘领域的热点之一。离群点检测算法大致可分为:基于分布的方法;基于深度的方法;基于距离的方法;基于密度的方法和基于聚类的方法。其中基于距离的离群检测算法可以灵活的制定距离函数、有效的获得离群点的信息。然而现有的算法在实际应用过程中还存在着一些不足,如初始参数的选取需要通过经验获取,算法在高维、大数据集上的运行效率等。目前在基于距离的离群检测算法上提出了一些先进的算法,如KNN算法。本文针对KNN算法对离群点检测的效率和精度进行了研究,在此基础上提出了加权KNN的算法思想。通过在传统的KNN方法的基础上为每个数据点增加了权重,其值为与最近的k个邻居的平均距离,离群点为那些与第k个邻居的距离最大且相同条件下权重最大的点。通过权重的引入,提高了离群点检测算法的精度。论文的主要工作包括:①研究了数据挖掘和离群数据挖掘的背景、现状和研究意义,分析了现有的离群点检测算法,对比了常用的离群点检测算法的优缺点、适用范围。②研究了数据挖掘相关技术和算法,如数据挖掘前的一些数据预处理技术;以及一些聚类算法。③在经典的KNN离群检测算法的基础上,提出了一种改进的基于加权KNN的离群点检测算法,通过为每个点增加权重来提高离群检测的精确度,并通过实验验证了其检测精度优于原算法。④采用UCI的Breast Cancer Wisconsin数据集验证了算法的精度;通过模拟的大数据集验证了算法在不同数据量和数据维数下的时间效率,并同原算法在相同维数条件下,时间效率与数据量大小的关系进行了比较。实验结果表明:本文提出的基于加权KNN的离群检测算法能有效的检测出数据集中的离群点,且比传统的KNN算法有更好的时间性能。