论文部分内容阅读
在今天的大数据时代,数据的价值越来越受到各界广泛地关注,如何利用数据清洗的方法解决数据中存在的质量问题,成为充分挖掘数据知识、充分利用数据价值的前提。数据质量问题包括但不限于数据的准确性、完整性、唯一性、时效性和一致性,这些问题或提高发现数据知识的难度,或降低数据的价值,或影响人们正确的判断,甚至导致人们发现错误的知识而不自知,给国家和公司造成无法挽回的损失。本文从统计学方法和基于密度的聚类方法两个方面使用数据挖掘的方法解决数据清洗问题,着重解决数据清洗中的异常数据检测问题,达到提高数据质量的目标。论文的研究工作主要体现在以下几个方面:1、调查国内外数据清洗技术相关的理论知识,阐述数据清洗在不同应用场景的定义,总结当前生流的数据清洗方法和工具以及数据质量评估指标。2、总结了数据挖掘和异常检测的方法、应用场景以及数据挖掘一般的步骤,为后面利用统计学方法和密度聚类的方法进行数据清洗进一步奠定了理论基础。3、实现基于牛顿-拉夫逊潮流算法的WLS (Weighted Least Square)状态估计算法,估计电力系统稳定状态下的电压幅值和电压相角,提出基于卡方检验的异常检测方程,最后结合实际案例说明该方法检测异常数据的能力。4、提出基于密度聚类数据清洗框架,该框架包括缺失值处理、特征选择、密度特征提取和异常检测四个部分,能够对一般数据尤其是无标签的多维数据进行精细化的清洗,并且返回聚类的结果。5、提出查准率和查全率指标来评估数据清洗方法的性能,结合实际的GPS轨迹数据清洗案例,评估DBSACN算法、LOF算法与传统算法各自的性能与效率。