论文部分内容阅读
线性分类方法作为模式识别领域一类基础的方法,十几年来在理论与应用研究中备受关注。该方法被视为一个包含线性模型构造、优化算法设计、损失函数选择等核心过程的机器学习流程。传统线性分类方法面临两个问题:不平衡问题与直接处理图像样本时无法获取全局信息的问题。这两个问题都与样本分布区域信息有关。为解决以上两个问题,本文提出多个策略,主要工作如下: (1)提出一种边界消解策略。该策略在训练阶段利用线性分类方法构造两个决策面划分样本空间为三部分并生成候选样本集,在测试阶段使用新度量方法比较测试样本与候选样本与对应类决策面的距离后作预测。一个分类方法依据其是否在学习阶段构造决策面可分两类:有边界方法与无边界方法。所提策略能结合这两类方法的优势。 (2)提出一种基于局部保持投影的正则化策略并结合边界消解策略与多阈值优化策略用于传统线性分类方法。其中,多阈值优化策略使用多个预定义阈值训练分类器并在验证阶段选出的最优分类器用于测试。另外,探讨在不平衡问题中,传统线性分类方法构造超平面的斜率与截距对其分类性能的影响。 (3)提出一种基于修正成对约束的正则化策略并将其引入矩阵分类方法。现有矩阵化线性分类方法能利用两个权重向量控制同一样本以直接习得图像样本的结构特征,进而取得比面向向量表示样本的分类方法更优异的性能。然而,这类方法无法获取样本间关联信息。另外,被广泛用于聚类任务的成对约束技术虽能捕获样本间信息,却无法直接被移植到分类方法中。所提策略尝试解决以上两点不足。 (4)提出一种矩阵化方法,其使用快速聚类策略生成样本各特征的典型取值,再将典型取值合并成向量与原始样本拼接组成矩阵。之后,所提策略能与矩阵学习机结合以处理向量型样本。“矩阵化”是指将向量转换为矩阵的过程。与现有矩阵化方法相比,新方法生成的矩阵形式唯一,并使得转换后的样本具有几何意义。 (5)提出一种基于万有引力定律的固定半径近邻分类方法与一种整合三个降维模型的流形学习框架。前者启发自相似度度量学习,后者基于流形学习。所提方法能辅助线性分类方法获取样本的区域分布信息。 所提各方法均在UCI、KEEL与图像数据集上进行对比实验,以证明其性能与效率。实验结果表明,这些工作能获取更完整的样本分布区域信息以处理不平衡与图像直接分类问题,并进一步拓展相关研究。