论文部分内容阅读
随着社会的快速发展,模式识别已在各行各业受到了广泛地关注,并已成为当今社会生活中的实际应用。模式识别研究内容包括了数学、机器学习、计算机视觉、人工智能、神经科学以及认知科学等多门学科,是一个具有挑战性的理论研究难点,也是一个快速发展的挑战性应用问题。作为模式识别的核心内容,特征提取主要研究如何从高维观测数据中学习到有利于识别任务的判别属性,特征提取模型的质量直接决定着模式识别的性能。特征提取研究是当前模式识别领域的热点问题之一。
现有模型基本是在欧式距离下取得数据的最优低维表示,没有考虑隐藏在高维数据中的非线性流形结构。而且基于欧式距离的模型不能保证把具有较大内在曲率的流形结构映射到本征维嵌入空间中。本文采用核密度估计方法来近似隐藏在高维数据空间中的本征维流形结构,提出了多个基于分布保持嵌入学习的非线性特征提取模型来消除数据较大内在曲率,并分别从监督分类,无监督聚类,半监督分类的角度来验证这些特征提取模型性能。论文的主要内容和创新点可归纳如下:
① 基于边缘平滑的分布保持超球嵌入学习
提出了一种基于边缘平滑的分布保持超球面嵌入模型,并应用于高光谱数据特征提取中。具体是在用光谱特征向量估计每个像素点的分布时,充分利用高光谱数据的空间信息和强度信息,通过边缘停止函数平滑估计的分布来检测真实对象边缘信息。该模型能够捕获嵌入在高光谱数据中的内在几何结构,然后尽可能地将这些结构保持在较低维度的超球面嵌入空间中。三个常用高光谱数据集的实验结果也表明该模型可提取到高光谱数据的内在几何结构并显著提高监督分类识别性能。
② 基于分布保持的深度半非负矩阵分解
提出了基于分布保持的深度半非负矩阵分解模型,该模型是从聚类的角度出发,能根据观测数据的未知属性并通过深度半非负矩阵分解技术获得隐藏在数据中的分层表示。另一方面,每个数据聚类簇的内在几何结构都可通过簇内数据的分布来描述。在该模型中,通过核密度估计方法来近似数据的流形结构,然后通过显式地保持两个分布的一致性来达到分层投影过程中数据流形结构不变目的。该方法可在判别投影空间中比较完整地保留嵌入在原始高维数据空间的内在几何结构,无监督聚类实验结果也验证了该模型的有效性。并设计了一种自适应方法来快速优化该模型的约束目标函数。
③ 基于分布保持的深度局部嵌入学习
提出了分布保持网络嵌入模型,该模型利用权重约束为非负的深度自编码网络来学习数据的低维局部嵌入表示。在该方法中,使用邻域核密度估计来揭示隐藏在高维数据空间中的本征维流形结构,然后寻求数据深度局部嵌入,并使其遵循上述内在流形结构,该方法通过引入分布一致性正则项达到流形结构保持不变目的。此外,在图像和文本数据集上的无监督聚类结果也表明相比于其它传统和深度嵌入方法,该方法能更好地在嵌入空间中保持隐藏在高维数据空间中的内在流形结构。
④ 基于分布保持的半监督深度嵌入学习
提出了分布保持半监督深度嵌入模型,主要解决半监督学习框架中基于欧式距离的方法无法捕获少量有标签数据和大量无标签数据之间的流形结构这个问题。因数据分布能近似嵌入在高维数据空间中的本征维流形结构,同一类样本点位于连续高密度区域内,不同类样本通过一些低密度区域连接,故在深度模型中利用分布保持显式地结合少量有标签样本和大量无标签样本的内在几何结构信息,使得该模型相比于其它半监督学习方法既能学习到一个有效的分类决策面,又能学习到保持数据内在几何流形结构的低维嵌入。此外,在图像数据集上的半监督识别结果也表明该方法能学习到一个有效的分类决策面。
现有模型基本是在欧式距离下取得数据的最优低维表示,没有考虑隐藏在高维数据中的非线性流形结构。而且基于欧式距离的模型不能保证把具有较大内在曲率的流形结构映射到本征维嵌入空间中。本文采用核密度估计方法来近似隐藏在高维数据空间中的本征维流形结构,提出了多个基于分布保持嵌入学习的非线性特征提取模型来消除数据较大内在曲率,并分别从监督分类,无监督聚类,半监督分类的角度来验证这些特征提取模型性能。论文的主要内容和创新点可归纳如下:
① 基于边缘平滑的分布保持超球嵌入学习
提出了一种基于边缘平滑的分布保持超球面嵌入模型,并应用于高光谱数据特征提取中。具体是在用光谱特征向量估计每个像素点的分布时,充分利用高光谱数据的空间信息和强度信息,通过边缘停止函数平滑估计的分布来检测真实对象边缘信息。该模型能够捕获嵌入在高光谱数据中的内在几何结构,然后尽可能地将这些结构保持在较低维度的超球面嵌入空间中。三个常用高光谱数据集的实验结果也表明该模型可提取到高光谱数据的内在几何结构并显著提高监督分类识别性能。
② 基于分布保持的深度半非负矩阵分解
提出了基于分布保持的深度半非负矩阵分解模型,该模型是从聚类的角度出发,能根据观测数据的未知属性并通过深度半非负矩阵分解技术获得隐藏在数据中的分层表示。另一方面,每个数据聚类簇的内在几何结构都可通过簇内数据的分布来描述。在该模型中,通过核密度估计方法来近似数据的流形结构,然后通过显式地保持两个分布的一致性来达到分层投影过程中数据流形结构不变目的。该方法可在判别投影空间中比较完整地保留嵌入在原始高维数据空间的内在几何结构,无监督聚类实验结果也验证了该模型的有效性。并设计了一种自适应方法来快速优化该模型的约束目标函数。
③ 基于分布保持的深度局部嵌入学习
提出了分布保持网络嵌入模型,该模型利用权重约束为非负的深度自编码网络来学习数据的低维局部嵌入表示。在该方法中,使用邻域核密度估计来揭示隐藏在高维数据空间中的本征维流形结构,然后寻求数据深度局部嵌入,并使其遵循上述内在流形结构,该方法通过引入分布一致性正则项达到流形结构保持不变目的。此外,在图像和文本数据集上的无监督聚类结果也表明相比于其它传统和深度嵌入方法,该方法能更好地在嵌入空间中保持隐藏在高维数据空间中的内在流形结构。
④ 基于分布保持的半监督深度嵌入学习
提出了分布保持半监督深度嵌入模型,主要解决半监督学习框架中基于欧式距离的方法无法捕获少量有标签数据和大量无标签数据之间的流形结构这个问题。因数据分布能近似嵌入在高维数据空间中的本征维流形结构,同一类样本点位于连续高密度区域内,不同类样本通过一些低密度区域连接,故在深度模型中利用分布保持显式地结合少量有标签样本和大量无标签样本的内在几何结构信息,使得该模型相比于其它半监督学习方法既能学习到一个有效的分类决策面,又能学习到保持数据内在几何流形结构的低维嵌入。此外,在图像数据集上的半监督识别结果也表明该方法能学习到一个有效的分类决策面。