论文部分内容阅读
该文首先介绍了粗糙集产生的背景以及粗糙集的一些基本概念,并将粗糙集与其他几种处理不确定性理论作了比较,同时对粗糙集的发展、知识发现以及粗糙应用于知识发现的优点作了概述.关于粗糙集的化理化刻画问题,为基于等价关系的粗糙集给出了另外两个公理组,公理组G和H.为扩展的的基于相似关系的粗糙集给出了一个化理组刻画,即公理组S.为扩展的基于自反、传递关系的粗糙集给出了一个公理组刻画,即公理组RT.对于所给出的四个公理组,证明了它们的可靠性和极小性.这些研究有助于粗糙集理论的完善和应用.关于粗糙集理论的拓展问题,将分子格引入到粗糙集理论,该文试图将近似算子作进一步抽象与推广.在分子格的框架下,通过多种方法对粗糙集理论进行拓展,包括:引入一个从格的分子到普通元素的映射,并通过此映射定义了抽象的上、下近似算子;定义了分子格上的辅助序,并通过辅助序定义了抽象的上、下近似算子;通过分子格的子格来定义抽象的近似算子;通过分子格的类拓扑子系统来定义抽象的近似算子;通过分子格的类拓扑子系统来定义抽象的近似算子;通过分子格的类闭包子系统来定义抽象的近似算子.对于这些拓展方法所构造的上、下近似算子,研究了它们的一些性质.在接下来的三章中,对粗糙集理论用于知识发现中的几个关键内容进行了研究,包括连续属性离散化、属性约简和决策规则获取.具体地,关于决策系统中连续属性离散化,从启发式方法和基于遗传算法的方法两个方面进行了研究.通过对初始断点集进行精简,将Nguyen S H提出的著名的离散化算法进行了改进,改进后的算法在空间复杂度和时间复杂度上都有较大程度地降低;另外,提出了一种遗传算法用于求解决策系统的离散化问题,它与启发式算法相比更能获得小且一致的离散化结果,为粗糙集中连续属性离散化提供了一种新的思想.对于决策系统属性约简问题,从信息论角度定义了一种新的属性重要性度量方法.与基于互信息增益的方法不同的是:这种度量方法不仅考虑了属性的值域的大小,而且还考虑了取值的分布.基于此度量,构造了相应的启发式算法,对多个数据集的实验结果表明该方法能更有效地对决策系统进行约简.另外,将遗传算法引入到决策系统的最小相对约简问题,设计了混合遗传算法,并采用了三种修正策略来构造修正算子,实验表明混合遗传算法能获得比启发式方法更好的结果.最后研究了决策规则的获得了,就一致性决策系统和不一致决策系统两个方面分别给出了相应的算法.对于处理一致的决策系统,给出了一种基于分类一致性的规则获取算法RICCR,它以条件属性子集的分类一致性来度量属性的重要性,并逐步将重要的属性加入.实验表明它能获取较少的规则,规则较为简单,且规则是自然按照强度由大到小排列,便于分类决策;另外,从对Monks数据集的实验可以看出所获得的规则有较好的预测分类能力.针对不一致决策系统,提出了一种修改的基于分类致性的规则获得算法,它首先采用粗糙集中比较普遍的方法,对每个决策类计算出相应的下近似集与上近似集,然后用决策类的下近似集获得确定性规则,上近似集获得取概率性规则.在规则获取时采用属性重要性方法,与LEM2相比,它能一次获得移多条规则.通过对Hayes数据集的实验表明了算法的有效性.