论文部分内容阅读
在许多实际数据挖掘应用中,存在大量的未标记样例,然而要获得它们的标记是很耗时并且昂贵的。半监督学习是一种流行的机器学习技术,能够充分利用大量的未标记样例与少量的已标记样例来提高监督学习的性能。集成协同训练是一种半监督学习算法,本文针对该算法存在的问题进行了研究,提出了相应的改进方法。除了半监督学习,主动学习也能够利用大量的未标记样本来帮助改善学习性能。通过预先定义的查询策略来获得每一个未标记样本的信息量是主动学习的关键所在。基于集成的查询是其中一种查询策略,本文针对该策略存在的问题进行了研究,并提出了相应的改进方法。本文的研究工作可以划分为以下三个方面:1.基于距离度量的改进的集成协同训练算法。在集成协同训练中,类概率值可能重复,这对分类器性能的改进起到了负面影响。我们提出了一种方法来处理这个问题。集成的类关系概率能够与未标记样本和已标记样本之间的距离度量进行结合。两种距离度量被考虑。为了证明我们的方法能够得到高质量的样例与减少噪声的引入,一种数据审计技术被用来与我们的方法进行对比。在UCI数据集上的实验结果证实了我们的方法和数据审计技术的有效性,同时也表明了第一种距离度量方法通常要好于数据审计技术。2.基于朴素贝叶斯的改进的集成协同训练算法。一种不同的方法被提出用来处理集成协同训练中类概率值可能重复的问题。朴素贝叶斯被用来帮助估计未标记样本的类概率。由于朴素贝叶斯分类器对于不同的未标记样本能够产生不同的类概率估计,我们可以将它与集成分类器进行结合来做出预测。实验结果证实了我们方法的有效性,并且也表明了我们的方法通常要好于数据审计技术。3.改进的主动学习用于高光谱数据的分类。基于集成的查询根据集成的不一致程度来度量未标记样本的信息量。然而信息量可能重复,这给分类性能的提高带来了负面影响。为了减少信息量重复程度,一种现存的模型被用来帮助估计每一个样例的信息量。另外,为了降低被挑选出样本之间的冗余性,最远优先遍历算法被用来增加它们之间的差异性。在UCI数据集和高光谱图像上的实验结果证实了提出方法的有效性。