论文部分内容阅读
三支决策理论以其更接近人类认知与决策模式的优势,被广泛应用于多个学科领域。三支决策是基于决策粗糙集与概率粗糙集提出的,存在着一定的限制。限制是决策粗糙集与概率粗糙集的上下近似都是利用原始粗糙集的等价类去划分,而等价类是一种对数据比较严格的硬划分,忽略了样本的多样性,会导致三支决策的决策准确率降低。本文针对这个问题,提出覆盖粗糙集下的三支决策模型。覆盖粗糙集是将粗糙集的等价类推广为覆盖类,允许每个类之间有交集,充分的考虑到样本的多样性,本文用覆盖粗糙集下的三支决策模型去处理特征选择与分类任务。对于特征选择任务,本文提出了覆盖粗糙集下三支决策的特征选择算法。该算法在原有覆盖基础上提出了新的覆盖,使原本不单调的三支决策约简变的单调,方便用正域选择特征子集。首先,对每个特征下的所有样本,计算其对应的覆盖,再计算每个样本在不同特征下的覆盖算子。其次,计算每个样本的覆盖算子在不同特征下的条件熵,选取熵值最大的特征。接着,在剩余特征中计算出重要度大的特征加入到所选特征子集中。最后,根据原始正域的样本个数是否与选取的特征子集正域的样本个数相等作为停止条件。实验结果表明,与传统特征选择算法相比,本文提出特征选择算法结果更优。对于分类任务,本文提出了覆盖粗糙集下三支决策的分类算法。该算法改进了原始三支决策分类算法,将边界域样本用覆盖粗糙集中覆盖算子进行分类。本算法分三步对样本进行分类。第一步利用样本属于每个决策类别的概率来进行分类。若本阶段不能判断样本类别,则进入第二步。第二步利用样本的覆盖算子来进行分类,若本阶段依然不能判断样本类别,则进入第三步。第三步利用基于距离的近邻分类方法进行分类。实验结果表明,与传统分类算法相比,本文提出的分类算法实验结果更优。本文在相同条件下进行了特征选择与分类算法的对比实验。分别用了不同数据集和三个不同指标去评价算法好坏。实验结果表明,本文提出的方法在大多数情况下优于其他同类算法。