论文部分内容阅读
近些年来,数据量的爆炸给机器学习和数据挖掘研究者提出了严峻的挑战。一方面,有标记的数据获取越来越困难,给数据做人工标记的成本越来越高,而且由于数据总量的增加,有监督学习需要的训练样本数越来越大。另一方面,大量无标记的数据可以很容易从网络获取。因此,如何利用少量的有标记数据和大量的无标记数据训练出使用的模型,就成为了一个研究者关注的方向。
半监督学习旨在综合利用有标记的和无标记的数据对数据进行分析,寻找最优的决策平面或聚类方式。本文主要关注半监督分类算法,即目标是综合有标记和无标记的数据对给定数据进行分类。研究者提出了很多的算法,主要的类别有:自学习(self-training),联合学习(co-training),生成模型,基于图的算法(graph-based)等。其中基于图的算法由于其严密的理论基础和良好的应用效果,吸引了较多研究者的关注。基于图的半监督学习算法在很多应用领域取得了很好的效果,在图像处理领域的应用也在近几年逐渐增加。本文的目的是在理解基于图的半监督学习算法关键思想的基础上,将其应用在图像处理的某些领域中,以求设计出效果更好,更实用的算法。
本文首先着重强调了图的构造在基于图的半监督学习的理论和应用方面都有非常重要的地位。基于图的半监督学习的核心思想是利用图来掌握数据的结构信息,因此对图的构造方式的研究有很强的理论和现实意义。从理论上讲,在基于图的半监督学习中,不同的图的连接方式实际上代表我们更关注数据什么样的结构。对于相同的一组数据,如果采用不同的图的构造方式,学习的结果也会不同。因此,如何构造合适的图以达到我们期望的学习的效果是一个非常具有挑战性的研究方向。从应用上讲,图的构造更为重要,因为不同的应用领域对于学习的结果要求可能完全不同。例如,图像分割要求将不同的区域分开,而图像去雾则要求将实际图像和雾的影响分开。实质上,不同的任务要求利用的数据的信息不同,就要求在设计图的时候将这些信息包含进去。
在图像分割应用中,本文创新性的提出了基于自组织神经网络的图像分割算法。本文的创新性在于利用自组织神经网络来自动学习图结构,之后再对图进行分割,避免了在图的构造中附加多余的先验信息。自组织神经网络可以自适应的在图像的各部分学习出不同的权值和连接方式,较前人算法更能抓住数据的结构信息。另一方面,本文提出的算法也可以看做是对自组织神经网络聚类算法的改进。本文采用了图分割的方法对于训练完成的网络进行分割,充分利用了自组织神经网络得到的所有信息,克服了传统方法的弱点,并且在效果上有所提升。
在图像去雾应用中,本文创新性的提出了基于非局部原则的图像去雾算法。首先本文指出了图像中像素连接得到的图的信息在去雾算法中的重要性,提出了通过在图的构造中包含丰富的信息来改进先验估计的思路。在这个思路的指导下,本文引入了在图像处理领域非常著名的非局部原则(Nonlocal principle),将图像的非局部信息加入图中,克服了前人方法只关注局部信息的缺陷,增强了算法保存细节信息的能力。另外由于非局部信息尤其适合分析纹理结构,本文提出的算法应用在包含纹理信息较多的图片上,速度和效果都有所提升。