论文部分内容阅读
已有的机器学习技术在解决实际问题时大多存在以下问题:用户不能从提供的数据中自动学习模型,必须预先定制模型。确定合适的模型需要用户具备丰富的领域知识、付出大量的努力,这使得机器学习技术的应用受到了局限。为了解决该问题,本论文提出首先构造一个大的网络结构,然后在数据驱动下一步式地修剪该网络,从而获得一种由少数网络节点构成的稀疏学习机,且其推广能力不会降低。具体工作如下: (1)首先,给出了稀疏学习机的一个定义。其次,借助于压缩感知和学习理论,证明了仅需少数耦合压缩观测,就可以很大的概率获得一个推广性能不会受到损失的稀疏学习机,其稀疏水平的上界为一个取决于观测数目和观测矩阵与字典矩阵之间相干性的量。此外,以具有希尔伯特空间正则的稀疏学习机为例,具体分析了其推广误差的理论界。 (2)为最小二乘支撑向量机提出了一种数据驱动的耦合压缩修剪方法,从而获得了一种判别型的稀疏学习机模型,并将其用于解决回归、二分类等经典模式识别问题。为了降低训练支撑向量机时的计算复杂度,最小二乘支撑向量机将其中的约束条件由一组不等式简化为线性方程组。但是最小二乘支撑向量机失去了支撑向量机的稀疏性,从而影响了模型的泛化性能。本文在压缩采样理论的启发下,提出了一种数据驱动的一步式压缩修剪策略,构建了一个推广性能没有显著减少的稀疏最小二乘支撑向量机。该策略是一种全局的、信息保持的修剪方法,而且避免了大多数已有修剪方法中反复的再训练所带来的高昂运算代价。 (3)提出用耦合压缩采样方法训练最小二乘支撑向量机和拉普拉斯支撑向量机,分别获得监督和半监督的判别型稀疏学习机模型,并将其应用于高光谱影像分类问题。在最小二乘支撑机和拉普拉斯支撑向量机中,所有的训练样本都被用做支撑向量,失去了支撑向量机的网络结构稀疏性,增加了计算和存储代价。为了解决该问题,本文在数据驱动下,用一种耦合压缩采样方法分别训练最小二乘支撑向量机和拉普拉斯最小二乘支撑向量机,提高了其网络结构的稀疏性,获得了相应的稀疏学习机模型。该训练方法无需再修剪,在训练过程中直接获得稀疏的网络结构,且不会损失模型的推广性能。 (4)在稀疏编码分类器这种特殊的稀疏学习机中引入张量表示,提出了两种张量稀疏编码分类器,并将其用于高光谱影像分类问题。首先,为了充分地利用高光谱影像的空间信息,本文将每个特定的空间像素和它的空间近邻表示为空间近邻张量的形式,并将张量稀疏编码用于这种张量表示形式,从而获得一种被称为具有空间近邻张量的稀疏编码分类器的稀疏学习机。由于充分利用了高光谱影像的空间结构信息,在仅用少量标记像素时,具有空间近邻张量的稀疏编码分类器也能获得精确的分类结果。此外,为了限制标记混合像元时的不确定性,本文构造了一个由稀疏编码系数的似然确定的正则项,并将其引入到具有空间近邻张量的稀疏编码分类器中。这种稀疏学习机在用于预测混合像元的标记时仍能获得令人满意的结果。