论文部分内容阅读
在实际应用中,数据标签的分布往往是不平衡的,并且少数类样本是我们关注的重点。因此,研究不平衡数据的分类方法很有必要。针对不平衡数据的分类问题,主要从数据采样和算法改进两个方面进行研究;当数据分布极端不平衡时,也可以从异常检测的角度进行研究。本文主要有以下三点工作:(1)从数据采样的角度来说,在分类前对数据集进行重采样往往可以提升分类性能。针对 SMOTE(Synthetic minority oversampling technique,SMOTE)算法不考虑新生成的少数类样本位置的问题,本文引入改进的Safe-Level-SMOTE算法,并提出一种基于临时标记的TempC-SSMOTE过采样方法。这样既可以使新生成的少数类样本更靠近少数类样本集中的地方,又能减小过采样规模,改善过采样算法容易生成噪声样本的问题。实验结果表明,从F1值、Recall值和G-mean值角度评估,基于临时标记的TempC-SSMOTE过采样方法优于其他常见采样方法,验证了所提方法的优越性和可行性。(2)从分类算法的角度来说,集成学习方法是处理不平衡数据集分类任务的一种重要方法。本章将 CMAES(Covariance Matrix Adaptation Evolution Strategy,CMAES)算法与集成学习方法相结合,提出一种基于CMAES算法的集成学习方法。该方法用CMAES算法自适应训练基学习器的组成权重,从而提升分类性能。实验结果表明,从Fβ值和Acc值角度评估,基于CMAES算法的集成学习方法能够对基学习器进行有效集成,且性能优于常见集成学习方法。(3)从异常检测的角度来说,常见的异常检测算法,一般是通过异常评价值来判断某条样本是否为异常样本。这种方法往往依赖于阈值的选取,且未利用标签信息。本文提出将异常检测方法与分类模型相结合,用异常检测的思想对数据特征进行处理,挖掘数据的内在信息,再采用贪心方法对新生成的数据特征进行组合,最后结合分类器进行分类。实验结果表明,从F1值、Recall值和G-mean值角度评估,在极端不平衡问题中,基于异常检测思想的特征处理方法可以明显提升分类性能。