论文部分内容阅读
粒度计算作为近年研究领域的热点,为数据挖掘研究的许多方面提供了概念上的框架。许多学者从不同的视角,不同的概念和模式对粒度计算进行了研究。近年来,粗糙集理论已经变成了粒度计算研究的主要数学模式。分类是数据挖掘和模式识别的主要任务之一。分类有许多不同的表达方式,如分类规则、判别式、决策树和决策表等。本文在粗糙集理论和粒度计算理论的基础上,对数据挖掘的分类算法中进行了研究。本文的主要工作如下:首先,介绍了数据挖掘的基本概念,数据挖掘的基本过程。数据挖掘的模式分为以下几种:分类模式、预测模式、关联规则模式、回归模式、聚类模式、时间序列模式等。不论是哪一种模式,算法都起着非常重要的作用。分类模式算法包括以下几种:决策树分类、贝叶斯分类、支持向量机、神经网络、遗传算法、粗糙集方法。第二章介绍了粗糙集理论和粒度计算理论的相关背景和一些基本概念。并引入了多粒度层次概念。在第三章中,首先介绍了属性约简的基本概念,属性约简中的粒度计算。对粒度计算理论用于分层属性约简进行了研究,并给出粒度计算的属性约简算法。在接下来的两章中,本文提出一种基于粒度层次的决策树分类算法。该算法改进了决策树C4.5算法并引入了粒度概念层次。每个粒度用(属性,值)去定义。基于粒度层次树模型,我们用搜索粒度策略来提取分类规则。在一个粒度层次中,每个结点都是数据对象的子集,连接大粒度到小粒度的弧用一个原子公式(属性,值)定义。最终,树模型中所有最小粒度定义的对象是论域的一个覆盖。在每个粒度层次上的规则都可以从数据集合中导出,从顶层到底层将推导出一个规则。我们用UCI数据集验证上述方法,实验结果表明该算法是非常有效的。