论文部分内容阅读
随着现代信息技术的迅猛发展,知识发现(KDD)在科学和商业中得到了越来越广泛的应用。知识发现通过一定的技术手段从海量数据库中获取人们无法直接看到的有价值信息,并以此为人们的行为提供辅助决策。可以预见,未来的知识发现技术将为经济发展和社会进步提供强大的动力。另一方面,随着现实数据库的不断膨胀,对原始数据的规范和清理——即数据预处理变得日益重要,因为数据预处理作为知识发现的前期工作之一,其结果将直接影响到后续知识发现的效率和效果。粗糙集理论由于其独特的知识表示方法在数据预处理方面有着得天独厚的优势,同时也成为数据库中知识发现的有效手段。本文在介绍知识发现和粗糙集基本理论的基础上,重点研究了两个方面的内容。一是对知识发现中的数据预处理问题进行了系统研究。结合知识发现的主要应用平台——数据仓库,构建了一个基于数据仓库的数据预处理过程模型,并阐述了该模型的主要思想;进而对数据预处理中的维规约问题进行了重点研究,在总结归纳现有维规约算法的基础上,提出了一个基于粗糙集理论的双向选择维规约算法(BSDRA)。二是进一步研究了基于粗糙集理论的规则提取。针对已有的覆盖度因子可能将有价值的规则当作噪声规则误删除的情况,本文对覆盖度因子进行了修正与改进,定义了隶属度的概念,并将其作为过滤噪声规则的因子提出了带有隶属度因子的规则提取算法。将本文的理论研究内容应用于某高校的教学质量测评数据库,进行了相应的数据预处理和规则提取,在验证算法有效性的同时得出了一些有益的结论。