论文部分内容阅读
随着数据库技术的发展和信息时代的来临,各行各业都积累了大量的数据,数据库中存储的数据量急剧增加。因此,为了提高工作效率和生活质量,人们必须获取蕴藏在其中的有价值的信息。为了达到这个目的,人们开始致力于从数据库中发现知识的研究。然而,众所周知,数据库中往往存在冗余数据、缺失数据、不确定的数据和不一致的数据等诸多情况,这些数据成了发现知识的一大障碍。粗糙集理论是1982年同Pawlak Z提出,经历了20多年的发展,已经在理论和应用上取得了丰硕的成果。它不依赖于数据集之外的附加信息,是处理含有噪声、不精确、不完整数据的有力工具。许多知识发现技术仅仅适用于精确集,不适用于粗糙集,而现实中粗糙集是普遍存在的现象,因此基于粗糙集的知识发现模型在信息系统的研究领域具有重要意义。本文首先介绍了知识发现的历史、现状和可能的发展方向,并回顾了它的主要方法和技术。然后,论文对粗糙集理论进行了介绍,并对数据挖掘中的各环节运用粗糙集理论的方法进行了分析。随后论文重点对作者在数据离散方面做的研究工作进行了阐述。论文先提出了连续性数据离散定义的一般性数学描述,然后在此基础上通过对一种局部离散化方法的改进,提出了全局的离散化算法。该算法弥补了原算法引入不一致的缺陷,并在保持数据一致性的前提下,进一步分析了离散中分割点的冗余并进行了约简,并应用UCI中的机器学习数据库数据进行了验证,证明了改进算法的有效性。最后本文将对一真实的心脏病病人数据集,应用基于粗糙集的知识发现技术开发特征文件,得出一些有价值的模式,从而将有心脏疾病的人与那些未知心脏状况的人区别开人,为诊断提供参考,通过该案例以让大家对基于粗糙集的知识发现有更深的感性认识,并以证明其先进性和实用性。