论文部分内容阅读
随着信息技术的发展,数据采集和存储技术的进步使人们获得数据的能力急剧提高,并且已经拥有的大量数据还在不断呈指数级的速度增长。更重要得是,隐藏在这些数据之后的信息不仅是关于这些数据整体特征的描述,而且还是预测其所反映的事物未来发展趋势得基础。显而易见,这些信息在决策制定过程中具有极其重要的参考价值。因此,数据成为了一种信息时代的关键性资源。如同所有的资源一样,数据的质量问题,尤其是异常数据的提出及研究,对数据分析的结果产生越来越重要的影响。
异常数据,是数据集中与众不同的数据,不符合通常的数据模式,其产生机制往往与大多数据的不同。异常数据可能是采集或记录过程中引入的噪音数据,这种异常数据会误导分析,因而应该被剔除。另一方面,异常数据也可能是真实的异常情况,隐含对应用十分有意义的未知知识,这种异常数据需要保留并加以分析。异常数据研究,或称异常数据挖掘,包括异常数据检测和异常数据解释两个部分。
当前国内外对异常数据的研究主要集中于异常数据检测这一过程,并针对数据的特定情况开发出了多种异常数据检测方法,如基于统计模型的异常数据检测方法、基于距离的异常数据检测方法、基于密度的异常数据检测方法和针对高维数据集的异常数据检测方法等。本文在全面综述目前常用异常数据检测方法的基础上,提出了这些检测方法存在的许多严重弊端,指出了在解决现实问题时这些方法的局限性,并且指出这些异常数据检测方法缺乏对所发现异常数据的解释功能,而这一功能在绝大多数应用中都是很重要的。本文在分析决策树剪枝过程之后,发现有效的剪枝过程可以发现数据集中某些异常情况。因此这可以为异常数据检测提供一个基础。在此基础之上,本文提出了一种新的异常数据检测方法——基于EBP的异常数据检测方法(an Outlier Detection Method Based on EBP),有效的解决了高维环境下如何检测并解释分类型数据异常,特别是类异常数据的问题。该方法通过使用C4.5决策树构造算法的剪枝策略,即Error Based Pruning,对数据对象进行初步筛选找到最有可能存在异常的数据子集,然后通过对该数据子集的分析,最终得到最有可能的异常数据。本文提出的这种检测方法在一定程度上克服了以往大多数异常数据检测方法的缺点,通过实验验证该方法是行之有效的。并且由于决策树有着对数据的天然的解释能力,所以基于EBP的异常数据检测方法为解释异常数据提供了一个简单有效的解决方案。
在两个不同行业领域中的实际应用也说明了该模型的实用价值,同时为其可以拓展到更多的领域提供宝贵的实践经验。