基于集成的半监督学习和主动学习算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:pingerk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在许多实际数据挖掘应用中,存在大量的未标记样例,然而要获得它们的标记是很耗时并且昂贵的。半监督学习是一种流行的机器学习技术,能够充分利用大量的未标记样例与少量的已标记样例来提高监督学习的性能。集成协同训练是一种半监督学习算法,本文针对该算法存在的问题进行了研究,提出了相应的改进方法。除了半监督学习,主动学习也能够利用大量的未标记样本来帮助改善学习性能。通过预先定义的查询策略来获得每一个未标记样本的信息量是主动学习的关键所在。基于集成的查询是其中一种查询策略,本文针对该策略存在的问题进行了研究,并提出了相应的改进方法。本文的研究工作可以划分为以下三个方面:1.基于距离度量的改进的集成协同训练算法。在集成协同训练中,类概率值可能重复,这对分类器性能的改进起到了负面影响。我们提出了一种方法来处理这个问题。集成的类关系概率能够与未标记样本和已标记样本之间的距离度量进行结合。两种距离度量被考虑。为了证明我们的方法能够得到高质量的样例与减少噪声的引入,一种数据审计技术被用来与我们的方法进行对比。在UCI数据集上的实验结果证实了我们的方法和数据审计技术的有效性,同时也表明了第一种距离度量方法通常要好于数据审计技术。2.基于朴素贝叶斯的改进的集成协同训练算法。一种不同的方法被提出用来处理集成协同训练中类概率值可能重复的问题。朴素贝叶斯被用来帮助估计未标记样本的类概率。由于朴素贝叶斯分类器对于不同的未标记样本能够产生不同的类概率估计,我们可以将它与集成分类器进行结合来做出预测。实验结果证实了我们方法的有效性,并且也表明了我们的方法通常要好于数据审计技术。3.改进的主动学习用于高光谱数据的分类。基于集成的查询根据集成的不一致程度来度量未标记样本的信息量。然而信息量可能重复,这给分类性能的提高带来了负面影响。为了减少信息量重复程度,一种现存的模型被用来帮助估计每一个样例的信息量。另外,为了降低被挑选出样本之间的冗余性,最远优先遍历算法被用来增加它们之间的差异性。在UCI数据集和高光谱图像上的实验结果证实了提出方法的有效性。
其他文献
作为一支球队的主帅,通常都比球员要承受更大的压力,毕竟如果成绩不佳,外界更多的是会质问主帅,而且对于老板们来说,解雇一名教练总比开除所有球员要来的方便的多。但这反而造就了教练们异同常人的大心脏,每一个夺冠的球队之上,都有一个临阵不乱指挥有方的真正核心。    穆里尼奥  在5月2日客场3:0战胜毕尔巴鄂竞技之后,皇马终于拿到了本赛季西甲联赛冠军。这是皇马所获得的第32次西甲冠军,这也是主帅“狂人”
目前铁路列车控制系统的车、地传输系统大多采用轨道电路方式,钢轨中传输的信号电流不但完成闭塞分区之间占用信息传递的任务,而且还承担将地面指挥信息传给机车的任务,因此钢轨
Bauxite residues,a large volume solid waste,are in urgent need of effective disposal and management.Especially,strategies to alleviate the high alkalinity of ba
Imazethapyr (IM) is a widely used acetolactate synthase-inhibiting chiral herbicide.It has long-term residuals that may be absorbed by the human body through th
IP是指集成电路设计中所采用具有独立知识产权的可重用的功能模块,集成电路设计中利用IP资源可以缩短相应的设计周期,同时也可以提高一次流片成功的几率。尤其是在要求实现片上
数控技术,简称数控(Numerical Control),是利用数字化的信息对机床运动及加工过程进行控制的一种方法。现代数控技术的发展方向是高速化、高精度化、高可靠性、多功能、复合
Nanophotocatalysts have shown great potential for degrading poly-and perfluorinated substances (PFAS).In light of the fact that most of these catalysts were stu
Certain plants have demonstrated the capability to take up and accumulate metals,thus offeting the potential to remediate metal-contaminated water and sediment.