论文部分内容阅读
在模式识别中,特征抽取与分类器设计一直是研究的热点。从高维数据的特征抽取来说,设计的特征抽取准则如何更好地综合数据的分布信息、数据的结构信息一直是特征抽取算法研究的热点,同时设计的特征抽取准则能否更好地处理小样本问题亦是特征抽取算法研究的难题。现有的特征抽取算法,往往运用独立于特征抽取准则的分类器对降维后的数据进行分类,以评估特征抽取准则的信息保持能力。从数据的分类器设计来说,设计的分类器如何更好地评估异类数据的差异性,同类数据的相似性是评估分类器性能的重要指标。然而对于以分类为目的的高维数据,常用独立于分类器的降维方法,对高维数据进行特征抽取以实现降维的目的。那么对于以分类为目的的高维数据来说,如何将特征抽取准则与分类器的设计融合起来,实现高维数据的同时降维与分类,将会促使特征抽取与分类器的研究更深入一步。本文基于流形表示及稀疏表示,针对高维数据的特征抽取准则的设计、特征抽取与分类器融合算法的设计以及分类器的设计做了一定的探索和研究。本文的主要工作和创新成果集中在以下几个方面: (1)基于流形学习的模型提出了监督状态下基于图的Fisher分析。为使特征抽取准则能更好的综合样本数据的分布结构信息,重新定义样本的本质图和处罚图,并通过一严格单调递减函数反应同类样本点在构成本质图的重要性,不同类样本点在构成处罚图的重要性。基于重新定义的本质图和处罚图提出新的具有鉴别能力的特征抽取准则。对于具有非线性特征的数据,基于核方法将模型扩展到基于正定核和不定核的扩展kernel形式。 (2)对于以分类为目的的高维数据,提出了半监督特征抽取及分类的融合算法。通过局部线性嵌入模型综合样本数据的分布结构信息,同时为了使特征抽取准则更好地服务于降维后数据的分类,在基于稀疏表示的分类准则基础上设计特征抽取准则。将测试数据表示成训练数据线性组合,为了得到稀疏的线性组合系数,寻找保持数据结构的稀疏保持嵌入映射,通过稀疏保持嵌入映射实现测试数据与训练数据的同时降维,同时,对降维后的测试数据根据其在训练数据下的稀疏表示系数对其进行分类。 (3)对于以分类为目的的高维数据,为了克服训练数据中冗余信息对分类的影响,同时使得特征抽取准则更好地服务于降维后数据的分类,本文进一步提出特征抽取、字典学习及分类的一体化算法。基于测试数据和训练数据提出的特征抽取及分类的融合算法,虽然实现了测试数据和训练数据的同时降维,并在降维准则的设计中考虑了测试样本的分类准则,然而这种基于测试集与训练集的学习框架很难决定适合测试样本的最优的降维变换阵。为克服这一问题,提出特征抽取、字典学习及分类的一体化算法。首先根据训练数据构造特征抽取、字典学习及分类的一体化框架,根据构造的一体化框架实现训练数据的同时降维和分类,同时根据训练数据的重新再分类结果,决定适合训练数据最优的降维变换阵和字典,并通过实验验证对训练数据最优的降维变换阵和字典对测试数据来说亦是最优的。 (4)本文在稀疏表示的基础上提出稀疏半监督分类算法。在实际应用中很难得到大规模的带类别标签的训练数据,反而无类别标签的数据往往很容易获取。因此,针对这种实际问题,基于稀疏表示理论,用无类别标签的样本对带类别标签的样本进行稀疏线性表示,然后根据稀疏线性表示系数计算无类别标签样本相对于每一类别的隶属得分,同时根据一定的原则将赋予类别标签的无类别标签数据分为可信赋予类别标签数据和不可信赋予类别标签数据,并将可信赋予类别标签数据更新到带类别标签数据中继续学习不可信赋予类别标签数据的类别标签。并通过实验验证所提的稀疏半监督分类算法在带类别标签样本数量较少的情况下可取得很好的分类效果。 文章最后对本文的工作和不足之处做了总结,对一些未展开的工作做了简要分析,并对未来的工作进行了展望。