论文部分内容阅读
数据收集与存储技术的发展使得互联网、金融以及工程界等诸多领域积累了海量的数据,机器学习可以高效的从数据中发现特征与规律,与传统数据分析技术相结合有助于从巨量、复杂的数据中发现有用的知识。类别不平衡问题作为机器学习领域的一个难点,具有重大的研究意义与价值。本文针对类别不平衡问题,从数据与算法两个层面出发,考虑原始生成式对抗网络(GAN)存在训练困难、模式崩溃等问题,以Wasserstein生成式对抗网络(WGAN)作为一种基本数据合成方法,与集成学习等算法相结合以提升不平衡学习的性能。
针对噪声对于不平衡学习的影响,设计一个基于K近邻的噪声滤波器(KF),对不平衡数据存在的噪声进行过滤。采用WGAN进行不平衡数据中少数类的过采样,将基于Boosting框架的不平衡学习算法RUSBoost用作对抗样本选择器(ASS)以过滤WGAN所生成的低质量对抗样本。设计了结合噪声过滤、过采样与对抗样本选择的重采样方法KF-WGAN-ASS的框架。在UCI数据库的6组不平衡数据集上对KF-WGAN-ASS算法进行了实验验证,结果表明,KF-WGAN-ASS算法的性能优于其他人工采样方法。此外,通过在数据集上添加噪声的实验,验证了噪声滤波器参数的选择对算法性能的影响。
在重采样与Bagging算法的基础上提出了一种不平衡数据分类方法——WGAN-DSR-Bagging。使用WGAN进行少数类的过采样以提升所合成少数类样本的可靠性,选择在差异化采样率(DSR)下进行训练子集的构造以提升Bagging框架中基分类器的多样性。设计了WGAN、差异化采样与Bagging相结合的不平衡数据分类框架。本方法在一个客户用电异常行为分析数据集上进行了实验验证,并选择WGAN过采样、asBagging以及SMOTE-DSR-Bagging算法进行对照,结果表明,WGAN-DSR-Bagging在AUC、F-measure与G-mean测度上的表现均优于上述三种算法。通过算法在不同不平衡比率训练集上的实验,验证了算法性能与稳定性优于asBagging方法。
针对噪声对于不平衡学习的影响,设计一个基于K近邻的噪声滤波器(KF),对不平衡数据存在的噪声进行过滤。采用WGAN进行不平衡数据中少数类的过采样,将基于Boosting框架的不平衡学习算法RUSBoost用作对抗样本选择器(ASS)以过滤WGAN所生成的低质量对抗样本。设计了结合噪声过滤、过采样与对抗样本选择的重采样方法KF-WGAN-ASS的框架。在UCI数据库的6组不平衡数据集上对KF-WGAN-ASS算法进行了实验验证,结果表明,KF-WGAN-ASS算法的性能优于其他人工采样方法。此外,通过在数据集上添加噪声的实验,验证了噪声滤波器参数的选择对算法性能的影响。
在重采样与Bagging算法的基础上提出了一种不平衡数据分类方法——WGAN-DSR-Bagging。使用WGAN进行少数类的过采样以提升所合成少数类样本的可靠性,选择在差异化采样率(DSR)下进行训练子集的构造以提升Bagging框架中基分类器的多样性。设计了WGAN、差异化采样与Bagging相结合的不平衡数据分类框架。本方法在一个客户用电异常行为分析数据集上进行了实验验证,并选择WGAN过采样、asBagging以及SMOTE-DSR-Bagging算法进行对照,结果表明,WGAN-DSR-Bagging在AUC、F-measure与G-mean测度上的表现均优于上述三种算法。通过算法在不同不平衡比率训练集上的实验,验证了算法性能与稳定性优于asBagging方法。