论文部分内容阅读
随着计算机技术的飞速发展,模式识别技术越来越广泛地应用在各项日常生活中。通过测量得到的原始输入特征一般维数都非常高,一方面特征之间的相关性非常复杂,难以得到真正有用的信息,另一方面带来了“维数灾难”的问题,造成了分类处理时间费用的巨大消耗,使得分类器设计更加困难。为了有效地设计分类器实现分类识别,我们需要对原始数据进行变换,去除噪声和冗余,获得少量最能反映分类问题本质的,便于机器处理的有效特征。
本文首先对特征提取方法研究现状进行了总结,然后介绍了读博期间在线性特征提取算法设计、核方法、非线性特征提取等方面的研究成果,主要贡献概括如下:
1.提出了一种自适应的线性特征提取方法。主成分分析和线性判别分析是目前应用最为广泛的特征提取算法,其中主成分分析以最小化重构误差为目标,但它没有考虑样本的类别信息;线性判别分析通过最大化类间散度和类内散度的比值来寻找最优的投影方向,但是它也存在一些局限,比如所提取特征数量受样本类别数目限制以及小样本问题等。为了解决这些问题,人们提出了基于Margin最大化的方法。在这些方法中,Margin用来衡量特征的分类能力,通过最大化所有Margin的和来得到特征。在本文中,我们研究了Margin的性质,引入Adaboost方法的思想,提出了一种逐步最大化Margin的方法。在我们的方法中,所提取到的特征能自适应地强调处于类别边缘的样本,更多的样本能获得较大的Margin,从而使得问题具有更好的可分性。我们在一些常用数据库上验证了算法的有效性。
2.建立了两种利用核函数进行非线性特征提取思想之间的等价性。线性特征提取方法具有深厚的理论基础和简单的实现方法,但是实际中我们面临的问题都包含有复杂的非线性关系。核方法是目前解决非线性问题的一个有效途径,很多优秀的线性方法都可以嵌入到所映射的核空间中,从而得到相应的非线性算法。但是,核空间是一个隐式空间,我们只能通过核函数来计算核空间中两个向量的内积,并不知道这个特征空间的具体形式,同时核函数需要满足Mercer条件来保证这个隐式特征空间的存在性。Kernels as Features思想是另外一种利用核函数处理非线性问题的方法,它利用核函数将样本非线性映射到一种显式特征空间,每个样本的特征可以用核函数和样本表示出来。我们研究了这两种利用核函数进行非线性扩展的关系,建立了线性特征提取算法经过这两种非线性扩展后得到的算法之间的一种特殊等价关系。这对于更好地理解核方法和利用核函数设计非线性算法具有较大的意义。