论文部分内容阅读
随着计算机网络和通信技术的高速发展,数据应用的普及,人类积累的数据量正在以指数级速度迅速增长。如何从大量数据中提取有价值的规则或“挖掘”潜在的知识?传统的数据分析和查询方法已不能满足人们对隐藏在数据背后的知识的迫切需要,在这种社会需求的强劲推动下,知识发现和数据挖掘应运而生,而粗糙集理论作为一门新的数学工具,凭借它不需要附加任何外界信息或先验知识这一特点,突破了其它数据分析工具的局限,避免了人的主观因素对数据挖掘结果的影响,逐渐成为了研究知识发现的重要的数学工具之一。
由于数据预处理是KDD处理步骤中非常重要的一环,其结果将直接影响到KDD的效率、准确度以及最终模式的有效性。而经典的粗集理论不能处理原始数据资料中的遗漏信息以及值域为实数的数据,需要经过数据预处理,包括数据补齐和离散化处理后才能进行知识获取,因此如何有效地进行数据预处理具有非常重要的现实意义。
本文围绕数据预处理的一般方法和基于粗糙集的数据预处理中数据补齐与连续属性离散化展开讨论。
针对现实中大量数据中存在的缺损数据、不确定数据、不一致数据和冗余数据等情况,论文首先阐述了数据预处理要到达的目标和任务,分析了数据清理、数据集成和变换、数据离散和数据规约的主要方法。
对于不完备系统下数据的补齐,论文首先分析了数据缺损的原因,然后分析了当前主要的数据补齐算法的特点和不足,指出了数据补齐的原则和目标,并针对已有的基于粗糙集理论不完备信息系统补齐算法ROUSTIDA的缺陷,提出了基于量化相似关系的数据补齐算法,以使更多的缺损数据得到科学的填补,尽量避免因采用其它方法可能导致的决策规则冲突的问题。
对于连续属性的离散化问题,论文提出了数据离散化技术的分类和数据离散化结果评价问题,然后,对目前流行的非粗糙集方法的离散化算法进行了详细的分析和评价,指出了离散化的方向和目标,并提出了基于粗糙集理论的改进的离散化算法,以便在保证划分后决策表相容性的前提下,获得比较合理的划分点。
最后,总结了论文所做的工作及存在的问题和不足,并对今后的工作进行了展望。