基于集成的半监督学习和主动学习算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：pingerk

【摘要】

：

在许多实际数据挖掘应用中，存在大量的未标记样例，然而要获得它们的标记是很耗时并且昂贵的。半监督学习是一种流行的机器学习技术，能够充分利用大量的未标记样例与少量的已标记

【作者】

：

吴林生

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2014年期

【关键词】

：

半监督学习集成学习集成协同训练主动学习集成查询

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在许多实际数据挖掘应用中，存在大量的未标记样例，然而要获得它们的标记是很耗时并且昂贵的。半监督学习是一种流行的机器学习技术，能够充分利用大量的未标记样例与少量的已标记样例来提高监督学习的性能。集成协同训练是一种半监督学习算法，本文针对该算法存在的问题进行了研究，提出了相应的改进方法。除了半监督学习，主动学习也能够利用大量的未标记样本来帮助改善学习性能。通过预先定义的查询策略来获得每一个未标记样本的信息量是主动学习的关键所在。基于集成的查询是其中一种查询策略，本文针对该策略存在的问题进行了研究，并提出了相应的改进方法。本文的研究工作可以划分为以下三个方面：1.基于距离度量的改进的集成协同训练算法。在集成协同训练中，类概率值可能重复，这对分类器性能的改进起到了负面影响。我们提出了一种方法来处理这个问题。集成的类关系概率能够与未标记样本和已标记样本之间的距离度量进行结合。两种距离度量被考虑。为了证明我们的方法能够得到高质量的样例与减少噪声的引入，一种数据审计技术被用来与我们的方法进行对比。在UCI数据集上的实验结果证实了我们的方法和数据审计技术的有效性，同时也表明了第一种距离度量方法通常要好于数据审计技术。2.基于朴素贝叶斯的改进的集成协同训练算法。一种不同的方法被提出用来处理集成协同训练中类概率值可能重复的问题。朴素贝叶斯被用来帮助估计未标记样本的类概率。由于朴素贝叶斯分类器对于不同的未标记样本能够产生不同的类概率估计，我们可以将它与集成分类器进行结合来做出预测。实验结果证实了我们方法的有效性，并且也表明了我们的方法通常要好于数据审计技术。3.改进的主动学习用于高光谱数据的分类。基于集成的查询根据集成的不一致程度来度量未标记样本的信息量。然而信息量可能重复，这给分类性能的提高带来了负面影响。为了减少信息量重复程度，一种现存的模型被用来帮助估计每一个样例的信息量。另外，为了降低被挑选出样本之间的冗余性，最远优先遍历算法被用来增加它们之间的差异性。在UCI数据集和高光谱图像上的实验结果证实了提出方法的有效性。

其他文献

帅动欧洲

作为一支球队的主帅，通常都比球员要承受更大的压力，毕竟如果成绩不佳，外界更多的是会质问主帅，而且对于老板们来说，解雇一名教练总比开除所有球员要来的方便的多。但这反而造就了教练们异同常人的大心脏，每一个夺冠的球队之上，都有一个临阵不乱指挥有方的真正核心。　　　　穆里尼奥　　在5月2日客场3:0战胜毕尔巴鄂竞技之后，皇马终于拿到了本赛季西甲联赛冠军。这是皇马所获得的第32次西甲冠军，这也是主帅“狂人”

期刊

球员教练指挥压力心脏老板夺冠成绩

基于ARM平台的轨道入口电流的测量

目前铁路列车控制系统的车、地传输系统大多采用轨道电路方式，钢轨中传输的信号电流不但完成闭塞分区之间占用信息传递的任务，而且还承担将地面指挥信息传给机车的任务，因此钢轨

学位

入口电流三次测量轨道电路列车控制系统

Alkalinity neutralization and structure upgrade of bauxite residue waste via synergistic pyrolysis w

Bauxite residues,a large volume solid waste,are in urgent need of effective disposal and management.Especially,strategies to alleviate the high alkalinity of ba

期刊

Bauxite residueRice strawAlkali neutralizationPyrolysisBiochar

Enantioselective effects of imazethapyr residues on Arabidopsis thaliana metabolic profile and phyll

Imazethapyr (IM) is a widely used acetolactate synthase-inhibiting chiral herbicide.It has long-term residuals that may be absorbed by the human body through th

期刊

Arabidopsis thalianaEnantioselectivityChiral herbicidesLeaf metabolismPhyllo

应用于时钟发生器的通用锁相环硬IP核设计

IP是指集成电路设计中所采用具有独立知识产权的可重用的功能模块，集成电路设计中利用IP资源可以缩短相应的设计周期，同时也可以提高一次流片成功的几率。尤其是在要求实现片上

学位

锁相环时钟发生器电源噪声电荷泵集成电路

基于MC68332和μC/OS-Ⅱ的嵌入式数控系统研究

数控技术,简称数控(Numerical Control),是利用数字化的信息对机床运动及加工过程进行控制的一种方法。现代数控技术的发展方向是高速化、高精度化、高可靠性、多功能、复合

学位

数控系统嵌入式系统μC/OS-Ⅱ

Environmental factors affecting degradation of perfluorooctanoic acid (PFOA) by In2O3 nanoparticles

Nanophotocatalysts have shown great potential for degrading poly-and perfluorinated substances (PFAS).In light of the fact that most of these catalysts were stu

期刊

Perfluorooctanoic acid (PFOA)NanophotocatalystDegradationDefluorinationOptim

受教育才能保先进

我是区“三个文明”建设的“百颗星”之一,曾多次在本系统被评为优秀共产党员和先进工作者。认真参加先进性教育活动,对我来说仍是一个接受再教育的过程。在单位我担任党支

期刊

党支部书记表率作用工作作风教育活动教育才能中起行动体业务学习工作方法服务水平

Phytoremediation of engineered nanoparticles using aquatic plants: Mechanisms and practical feasibil

Certain plants have demonstrated the capability to take up and accumulate metals,thus offeting the potential to remediate metal-contaminated water and sediment.

期刊

Aquatic plantsConstructed WetlandsNanoparticlesPhytoremediation

村民致富靠“金山”

55岁的王金山是榆树市先锋乡民权村家喻户晓的人物,这位有着20多年党龄的老党员,凭着党性和责任感,干出了一番轰轰烈烈的事业,经过10余年的打拼,用小食品做出了大文章,带富了

期刊

先锋乡外出流动村委会副主任登门拜访榆树市外出考察全部债务金星牌里人亲戚朋友

基于集成的半监督学习和主动学习算法研究

其他学术论文