论文部分内容阅读
统计模式识别在生物医学工程、数据挖掘、文档分类、生物认证、遥感等众多领域应用前景广阔。统计模式识别中涉及两个方面的共性技术问题:一是特征变换(特征提取或特征选择),一是分类器或者聚类器设计。本文对这两方面的一些问题进行了深入研究,研究内容及创新点如下:
(1)研究提出了一种三角矩阵特征变换方法。在某些合理的特征变换准则下,不能用求解矩阵特征值的方法确定变换矩阵中的D×D个参数,要用通用优化方法来求解,计算量非常大。本文从特征空间初始基底的优化出发,提出了三角矩阵特征变换方法,其变换矩阵中的参量个数只是现有方法中的大约一半,极大地减小了计算量。该方法支持各种特征变换准则、灵活性好,既可应用于分类问题也可应用于聚类问题。
(2)研究提出了分类器设计中原空间结构风险最小化的原则。现有的SVM超参数优化准则,都直接或者间接地以经验风险最小化为原则,本文指出了它的不足,提出了新的原则——原空间结构风险最小化的原则。
(3)研究提出了基于这一原则的两个新的具体的SVM超参数优化准则。一个是“最大化最短代数距离准则”,另一个是“导数平方和准则”。经实验验证,这两个准则下优化得到的超参数所对应的分类面能够在原空间中对样本尽量“平分秋色”,很好地体现了结构风险最小化的原则。
(4)研究提出了支持向量机超参数优化方法的全新框架。现有的SVM超参数优化,都面向的是最大间隔描述,其中一个超参数——惩罚系数C的范围太大,给优化带来难度;现有的超参数优化方法框架,如果不考虑梯度类局部搜索方法,是一个完全搜索框架,优化效率低。本文面向SVM的平分最近点描述,研究提出了新的搜索规则,进而形成了全新的超参数优化框架。在此框架下,极大地减小了超参数收缩系数D的搜索范围,避免了不必要的开销。
(5)在以上准则和框架下,研究提出了新的平分最近点描述下SVM分类问题的直观求解算法。现有的直观的求解算法,在变换域不可分的情况下,不能用于求解常见平分最近点描述下的SVM问题。本文借鉴SMO快速算法的分解思想,提出了一种新的求解这一问题的直观算法。与通用优化算法相比,计算效率高,并支持规模较大分类问题的求解。本文还指出了DirectSVM直观算法存在的一些问题。
(6)研究提出了一种减小最近邻法计算量的新方法。现有的减小计算量的方法最终都要找到待分类点的最近邻点,因此限制了最近邻搜索速度的进一步提高。本文提出了最近邻搜索的改进方法,在将最近邻法用于分类问题时不是要找到待分类点的最近邻点,而只要知道其最近邻点的类别即可。经与传统近邻算法比较说明,本文改进方法提高了分类速度,保持了好的泛化性能。