基于数据挖掘的数据清洗及其评估模型的研究

来源 :北京邮电大学 | 被引量 : 17次 | 上传用户:cchongzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在今天的大数据时代,数据的价值越来越受到各界广泛地关注,如何利用数据清洗的方法解决数据中存在的质量问题,成为充分挖掘数据知识、充分利用数据价值的前提。数据质量问题包括但不限于数据的准确性、完整性、唯一性、时效性和一致性,这些问题或提高发现数据知识的难度,或降低数据的价值,或影响人们正确的判断,甚至导致人们发现错误的知识而不自知,给国家和公司造成无法挽回的损失。本文从统计学方法和基于密度的聚类方法两个方面使用数据挖掘的方法解决数据清洗问题,着重解决数据清洗中的异常数据检测问题,达到提高数据质量的目标。论文的研究工作主要体现在以下几个方面:1、调查国内外数据清洗技术相关的理论知识,阐述数据清洗在不同应用场景的定义,总结当前生流的数据清洗方法和工具以及数据质量评估指标。2、总结了数据挖掘和异常检测的方法、应用场景以及数据挖掘一般的步骤,为后面利用统计学方法和密度聚类的方法进行数据清洗进一步奠定了理论基础。3、实现基于牛顿-拉夫逊潮流算法的WLS (Weighted Least Square)状态估计算法,估计电力系统稳定状态下的电压幅值和电压相角,提出基于卡方检验的异常检测方程,最后结合实际案例说明该方法检测异常数据的能力。4、提出基于密度聚类数据清洗框架,该框架包括缺失值处理、特征选择、密度特征提取和异常检测四个部分,能够对一般数据尤其是无标签的多维数据进行精细化的清洗,并且返回聚类的结果。5、提出查准率和查全率指标来评估数据清洗方法的性能,结合实际的GPS轨迹数据清洗案例,评估DBSACN算法、LOF算法与传统算法各自的性能与效率。
其他文献
家庭农场是在小农户家庭经营基础上实现农业农村现代化的重要选择。突出抓好家庭农场发展,不仅可以为乡村振兴战略提供主体支撑,巩固和扩大脱贫攻坚成果,还是稳定和完善农村
<正>1概况庙子坪岷江特大桥位于都汶高速公路E合同段,桥梁起讫桩号分别为K17+487.00和K18+ 927.22,桥梁全宽22.5m,桥梁采用2×50m(简支T梁)+125m+220m+125m(连续刚构)+17×50
会议
回顾学术史,南水北调移民精神研究发轫于2010年以前的部分新闻报道,2010年之后特别是党的十八大以来,南水北调移民精神研究在数量和质量上都得到了较大的提升。南水北调移民