论文部分内容阅读
模式分类是人工智能的一个基础研究领域,是从数据中获取有效信息的一个重要手段。各种各样的分类器被相继提出,并被广泛地用于解决许多实际问题。在实际的分类问题中,存在两种常见的分类问题,一种是分类器对异常样本的鲁棒性问题,另一种是不平衡数据分类问题。因为常见的基于无界凸损失函数的分类器对异常样本的鲁棒性较差,所以异常样本可能会降低它们的分类性能。此外,由于常见分类器一般假设不同类别的样本分布近似平衡或者错分代价近似相等,所以它们在不平衡数据分类问题中的分类结果可能不满足实际要求。目前,有许多单独研究鲁棒分类问题或者单独研究不平衡数据分类问题的论文,但是同时研究这两种分类问题的论文却不多。针对上述的分类问题,本文首先提出了一组基于有界压缩变换的鲁棒损失函数用于减弱异常样本对分类器性能的影响。然后,在代价敏感学习的框架下,本文将所提出的鲁棒损失函数和非对称阶式最小二乘损失函数用于处理含有异常样本的不平衡数据分类问题。最后,在代价缺失学习的框架下,本文研究了支持向量机的互信息拒识分类准则。该拒识分类准则可以筛选出分类置信度较低的模糊样本。本文所取得的主要成果如下 1.根据基于Correntropy的损失函数与最小二乘损失函数之间的关系,本文提出了损失函数的有界压缩变换方法。该有界压缩变换方法能够统一地将常见的无界凸损失函数,例如铰链损失函数(hinge loss function),逻辑损失函数和指数损失函数,转化为对应的有界非凸鲁棒损失函数。与损失函数的截断方法不同,该有界压缩变换方法是对无界凸损失函数进行光滑变换,所以具有更好的优化性质。本文分别推导了基于这些鲁棒损失函数的鲁棒分类器,并采用了半二次优化方法来优化它们。半二次优化方法包含两个迭代步骤:一个是样本权重系数更新;另一个是求解凸优化问题,该凸优化问题对应一种加权分类器。通过半二次优化方法,本文将这些鲁棒分类器与已有的加权分类器建立了联系,从而能够从鲁棒损失函数的角度解释加权分类器的鲁棒特性。人造数据集和真实数据集上的实验结果表明,本文所提出的这些鲁棒分类器能够有效地降低异常样本对分类器性能的影响。 2.在代价敏感学习的框架下,本文将非对称阶式最小二乘损失函数(asymmetricstagewise least square loss function)和基于有界压缩变换的鲁棒损失函数应用于含有异常样本的不平衡数据分类问题。目前,有很多单独研究鲁棒分类问题或者单独研究不平衡数据分类问题的论文,但是同时研究这两种分类问题的论文却不多。本文提出了代价敏感学习和鲁棒损失函数相结合的方法来改善分类器在含有异常样本的不平衡数据集上的分类结果。其中,代价敏感学习用于克服样本分布不平衡的问题,鲁棒损失函数用于减弱异常样本的负面影响。非对称阶式最小二乘损失函数也是一种鲁棒损失函数,该损失函数给不同类别的样本不同的损失上界和不同的margin,从而保护正类样本。实验结果表明这种结合的方法可以改善分类器在这种数据集上的分类结果。 3.在代价缺失学习的框架下,本文研究了支持向量机的互信息拒识分类准则。当遇到模糊样本时,人们可能会拒绝判断该样本的类别。将模糊样本判断为拒识类别也是一种有效地改善分类结果的方法,而被拒识的样本可以被进一步地分析或者使用其他的分类器来判断类别。互信息能够自动平衡错分样本和拒识样本的数量。在代价缺失学习的框架下,本文分析了支持向量机的互信息拒识分类准则。此外,本文还讨论了互信息拒识分类准则与代价敏感学习之间的联系,推导了等价的损失代价。该等价的损失代价可以作为代价敏感学习中损失代价的参考。本文将该支持向量机的互信息拒识分类准则应用于含有异常样本的不平衡数据分类问题。实验结果表明该互信息拒识分类准则通过拒识模糊样本,可以达到改善分类结果的目的。