基于多分类器集成及半监督学习的不平衡数据分类研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:cyberfu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络媒体和互联网技术的高速发展,Internet上充斥着各种海量的信息,且在不断变化更新,来源也更为广泛。怎样从海量的且不断变化的大数据中得到符合用户所需信息已经成为各机器学习的一个重要课题。同时,不平衡数据的分类问题也日益突出,原有的机器学习方法已经不适合解决这类问题。因此对不平衡数据的分类问题的研究存在着更大的挑战。一般来讲,解决不平衡数据分类问题通常使用的方法主要从两个角度出发:从数据层面和从算法层面对不平衡数据分类问题都分别进行了相关的深入研究。本文对于不衡数据分类问题所做的工作主要如下:1.基于多分类器集成的不平衡数据分类不平衡数据分类问题中用到的一个关键技术就是多分类器集成,为确保其集成的学习效果,必须改进以下两方面的内容,一是要使单个弱分类器的分类准确率提高,另一方面要增强单个弱分类器之间互相的差异性以及多样性。对于不平衡数据集来说,正负样本的分布不均衡,使训练所得的分类器对稀有类的识别率极低,从而导致分类器的分类性能差。针对这种情况,本文提出一种基于KPCA和RST的多分类器集成方法,首先将不平衡数据集采取降维的方式,并提取其主要特征,获取有代表性的样本信息,其次通过重构数据集的方法改变训练集样本分布,降低其不平衡度,这就使得单个弱分类器的分类准确率大大提高。由于重构数据集时,对训练集合的划分是采用随机采样的方式,这在一定程度上又增强了单个弱分类器之间的差异性。2.基于半监督学习的不平衡数据分类在不平衡数据分类问题中,由于稀有类样本的数量稀缺,为更有效的利用数据集中存在的数量丰富的且不带标记的样本数据信息,本文创新的将半监督学习的方法应用于解决不平衡数据的分类问题中,并对Tri-training算法进行改进处理。首先将三个互不相同的分类器引入到训练和学习过程中,进而使各个分类器互相的差异性增强。其次,改进的Tri-training算法不是采用多数投票法来对分类器集成,而是在加权投票时,引入了分类器对样本标记的准确率来实现分类器的集成,进而使学习所得的分类器对未知数据样本的预测更加准确。实验结果显示,本文改进的方法可使不平衡数据分类的准确率和查全率有效提高。
其他文献
随着计算机技术的快速发展,语音合成技术也得到快速的发展并逐步渗透到社会生活的各个领域。但现阶段汉语语音合成中还存在一些问题,主要体现在输出语音的可懂度和自然度上。本
随着网络技术的发展和信息交换的日益频繁,信息安全技术的研究变得越来越重要。密码学发展几千年来,在社会上应用非常广泛,20世纪80年代,非线性混沌理论开始发展并且日益壮大。混
随着信息化进程的加快和网络技术的进步,人们对网络的依赖性日益提高,随之而来的安全性问题也日益严峻。在互联网环境下计算机有害程序的种类和数量急剧增加。这些有害程序利用
航迹规划是实现飞行器自动导航的一项关键技术,它是随着信息技术和航空技术的不断发展而发展起来的一门跨学科的课题研究。由于飞行器的飞行环境异常复杂,约束条件众多,航迹规划
大自然中的植物种类多样,千姿百态,它们是组成和谐大自然不可缺少的一部分。虚拟植物建模融合了计算机图形学、应用数学、随机化过程、物理学、植物学、农学及可视化计算等多
量子计算是一门交叉于数学、物理与计算机科学的前沿学科,具有令人期待的发展前景.量子计算的研究主要分为对量子计算模型、量子计算复杂性和量子算法的研究.目前,广泛引起学
伴随着互联网技术飞快的发展,一种新型的技术——云计算技术已经被广泛应用于各个领域。云计算是相继分布式计算、网格计算及并行计算之后又一大新领域的突破。云计算实质意
基因芯片技术是目前研究人类基因组和其他各种模式生物基因组复杂性的最强有力的工具,这一技术已经广泛地应用于生物学和医学的各个领域。但是随着基因芯片技术的不断发展,产生
近年来,在全球信息化大潮的推动下,社会网络得到快速发展,各种不同的社会网络都表现出一种强的社团效应。一个网路中的成员趋于形成密切联系的社团。在不同的应用下,这些社团
MPLS技术提供了类似于虚电路的标签交换业务,可以实现底层标签自动的分配,在业务的提供上比传统的VPN技术更廉价,更快速和安全的数据传输。同时MPLS VPN可以充分利用MPLS技术的