论文部分内容阅读
不平衡数据分类问题作为机器学习和数据挖掘中一个重要的研究内容,近年来受到众多学者的广泛关注。在现实应用领域中不平衡数据广泛存在,由于不平衡数据集中各类样本数量具有不平衡分布特性,许多以总体分类精确率/准确率方式指导学习过程所设计的分类器并不适用于不平衡数据的分类任务。因此,对于分类模型的设计,如何提高样本数量偏少的少数类的分类性能,同时也保障样本数量多的多数类的分类性能,是不平衡数据分类器设计所面临的一个重大挑战。针对二类不平衡数据的分类问题,本文以提高不平衡数据中少数类的分类性能的同时保持全局分类性能为目标,分别对极限学习机和格构机模型进行改进,提出外类入侵度初始化参数的极限学习机和边界扩展的格构机算法;并结合常用分类性能评价指标,提出了一种基于信任度水平的评价指标用于协同评价分类器的分类性能。具体内容包括以下三个方面:1.提出一种基于外类入侵度初始化参数的极限学习机算法。针对极限学习机随机初始化输入权值不能体现各特征对不同类样本的区分能力的问题,通过设计外类入侵度来进行计算,并依据此区分能力来修正网络中随机初始化的参数。该方法对包含两类样本的数据,分别统计某特征下两类样本的取值分布,通过计算重叠区域中的入侵深度比和入侵个数比来计算该特征的外类入侵度;再依据外类入侵度来提高类别区分能力强的特征在极限学习机中的初始化权重。由于数据的不平衡性,对少数类具有较高分类价值的特征通常与多数类是不同的,本算法既加强了区分少数类能力强的特征在极限学习机中的作用,也加强了区分多数类能力强的特征的作用,从而提高极限学习机在不平衡数据集上的分类性能。在与两种基于极限学习机的改进算法和三种基于数据采样的SVM算法的实验比较中可以发现,本算法在七个不平衡数据上都有着更高的精确率和F1-score(高出2%-29%),且算法稳定。2.提出一种基于边界扩展的格构机模型算法。格构机是一种基于空间覆盖的分类学习方法,其通过构建超元组来对不同类样本分别进行建模。根据不平衡数据的样本分布特性,由格构机构建的正类(样本数量占少数的类)超元组所覆盖的数据空间远小于负类(样本数量占多数的类)超元组,因此导致格构机在正类上的分类效果低于负类。同时由于格构机仅部分覆盖数据空间,进而可能导致其在执行分类任务时召回率较低。针对以上问题,本文提出一种基于边界扩展的格构机,通过对正类超元组在边界方向上进行扩展,以使正类超元组获得最大限度的扩展,进而提高分类器在正类上的分类性能。同时由于扩大了模型覆盖的数据空间,因此在保持精确度的同时也提高了召回率。在与三种基于数据采样的SVM算法的比较中可以发现,边界扩展的格构机在九个不平衡数据上都有着更高的精确率和F1-score(高出2%-19%)。3.提出一种基于信任度水平的分类性能评价指标。在不平衡数据分类领域中,需要使用特定的评价指标来评估分类器的性能,以考虑具有不同分布的不同类别样本的实际分类效果。同时对于疾病相关分类问题,也需考虑分类结果的可靠性:即使分类结果的精确率高,但若其可靠性较低,分类结果则会缺乏信任,很难实际应用。为此,本文提出了一种基于信任度水平的分类性能评价指标,该方法通过将分类器在各测试样本上的似然输出规划到不同范围内,并用来确定分类器分类结果的信任度;最后,根据信任度水平、精确率和F1-score共同分析判断分类器在不平衡数据上的分类性能,可以识别出同时兼具高分类精确率、高信任度的分类器。实验结果表明,本文提出的信任水平指标可为分类结果提供信任评价,以判定分类结果是否可被信任。