论文部分内容阅读
随着网络媒体和互联网技术的高速发展,Internet上充斥着各种海量的信息,且在不断变化更新,来源也更为广泛。怎样从海量的且不断变化的大数据中得到符合用户所需信息已经成为各机器学习的一个重要课题。同时,不平衡数据的分类问题也日益突出,原有的机器学习方法已经不适合解决这类问题。因此对不平衡数据的分类问题的研究存在着更大的挑战。一般来讲,解决不平衡数据分类问题通常使用的方法主要从两个角度出发:从数据层面和从算法层面对不平衡数据分类问题都分别进行了相关的深入研究。本文对于不衡数据分类问题所做的工作主要如下:1.基于多分类器集成的不平衡数据分类不平衡数据分类问题中用到的一个关键技术就是多分类器集成,为确保其集成的学习效果,必须改进以下两方面的内容,一是要使单个弱分类器的分类准确率提高,另一方面要增强单个弱分类器之间互相的差异性以及多样性。对于不平衡数据集来说,正负样本的分布不均衡,使训练所得的分类器对稀有类的识别率极低,从而导致分类器的分类性能差。针对这种情况,本文提出一种基于KPCA和RST的多分类器集成方法,首先将不平衡数据集采取降维的方式,并提取其主要特征,获取有代表性的样本信息,其次通过重构数据集的方法改变训练集样本分布,降低其不平衡度,这就使得单个弱分类器的分类准确率大大提高。由于重构数据集时,对训练集合的划分是采用随机采样的方式,这在一定程度上又增强了单个弱分类器之间的差异性。2.基于半监督学习的不平衡数据分类在不平衡数据分类问题中,由于稀有类样本的数量稀缺,为更有效的利用数据集中存在的数量丰富的且不带标记的样本数据信息,本文创新的将半监督学习的方法应用于解决不平衡数据的分类问题中,并对Tri-training算法进行改进处理。首先将三个互不相同的分类器引入到训练和学习过程中,进而使各个分类器互相的差异性增强。其次,改进的Tri-training算法不是采用多数投票法来对分类器集成,而是在加权投票时,引入了分类器对样本标记的准确率来实现分类器的集成,进而使学习所得的分类器对未知数据样本的预测更加准确。实验结果显示,本文改进的方法可使不平衡数据分类的准确率和查全率有效提高。