论文部分内容阅读
分类是数据挖掘和知识发现的重要任务之一,非均衡数据是分类中的常见问题。真实世界的分类问题存在很多类别非均衡的情况,非均衡数据集自身的特点(少数类数据的绝对缺乏和相对缺乏、数据碎片、噪声)以及传统分类算法的局限性(不恰当的评价标准和不恰当的归纳偏置)是对非均衡数据集进行准确可靠分类的关键制约因素。非均衡数据的分类问题已成为机器学习和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。针对非均衡数据集分类性能提高的解决方法主要围绕数据层面和算法层面进行。数据层主要是通过去除多数类实例的欠采样或人工合成少数类实例的过采样达到均衡训练集的目的。本文提出一种新的解决非均衡数据集的预处理方式(记为ImSMOTE-RSTR*),通过改进的SMOTE方法创建新的人工合成少数类实例,并在此基础上应用基于粗糙集理论的子集下近似技术对训练集进行清理,所提出的算法被验证得到较理想的结果。