面向分布区域不平衡问题的线性分类模型与算法研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:safemon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
线性分类方法作为模式识别领域一类基础的方法,十几年来在理论与应用研究中备受关注。该方法被视为一个包含线性模型构造、优化算法设计、损失函数选择等核心过程的机器学习流程。传统线性分类方法面临两个问题:不平衡问题与直接处理图像样本时无法获取全局信息的问题。这两个问题都与样本分布区域信息有关。为解决以上两个问题,本文提出多个策略,主要工作如下:  (1)提出一种边界消解策略。该策略在训练阶段利用线性分类方法构造两个决策面划分样本空间为三部分并生成候选样本集,在测试阶段使用新度量方法比较测试样本与候选样本与对应类决策面的距离后作预测。一个分类方法依据其是否在学习阶段构造决策面可分两类:有边界方法与无边界方法。所提策略能结合这两类方法的优势。  (2)提出一种基于局部保持投影的正则化策略并结合边界消解策略与多阈值优化策略用于传统线性分类方法。其中,多阈值优化策略使用多个预定义阈值训练分类器并在验证阶段选出的最优分类器用于测试。另外,探讨在不平衡问题中,传统线性分类方法构造超平面的斜率与截距对其分类性能的影响。  (3)提出一种基于修正成对约束的正则化策略并将其引入矩阵分类方法。现有矩阵化线性分类方法能利用两个权重向量控制同一样本以直接习得图像样本的结构特征,进而取得比面向向量表示样本的分类方法更优异的性能。然而,这类方法无法获取样本间关联信息。另外,被广泛用于聚类任务的成对约束技术虽能捕获样本间信息,却无法直接被移植到分类方法中。所提策略尝试解决以上两点不足。  (4)提出一种矩阵化方法,其使用快速聚类策略生成样本各特征的典型取值,再将典型取值合并成向量与原始样本拼接组成矩阵。之后,所提策略能与矩阵学习机结合以处理向量型样本。“矩阵化”是指将向量转换为矩阵的过程。与现有矩阵化方法相比,新方法生成的矩阵形式唯一,并使得转换后的样本具有几何意义。  (5)提出一种基于万有引力定律的固定半径近邻分类方法与一种整合三个降维模型的流形学习框架。前者启发自相似度度量学习,后者基于流形学习。所提方法能辅助线性分类方法获取样本的区域分布信息。  所提各方法均在UCI、KEEL与图像数据集上进行对比实验,以证明其性能与效率。实验结果表明,这些工作能获取更完整的样本分布区域信息以处理不平衡与图像直接分类问题,并进一步拓展相关研究。
其他文献
随着计算机技术的发展和互联网时代的到来,互联网上的信息呈爆炸式增长。面对这些海量数据,随着数据文件的增多,索引时间呈线性增长;当承载高访问量或者索引数据规模很大时,检
计算机时钟的准确性对于大多数网络操作和应用都非常重要.NTP(Network Time Protocol)协议是现今应用最为广泛的一种分布式网络时间同步协议,它主要用于网络中计算机设备的时
电力远动通信系统是电网自动化的重要组成部分。随着计算机网络、通信、自动化等技术的发展,对远动通信系统的功能和性能提出了更高的要求,需要建立共享信道的分组交换系统。本文对多种新型远动通信规约进行分析,最终选定IEC61850作为系统实现的基础规约。本文将61850规约进行了适当变形应用于变电站和调度中心之间通信。为设计出完善的系统,从系统的网络结构、功能结构、信息结构和层次结构几个方面进行规划。使用
八十年代初,国外MRP/MRPⅡ思想开始引入中国,近年来更是形成了ERP企业资源计划(Enterprise Resources Planning)热潮。一个优秀的ERP软件必须适应企业不断改革创新过程中的变化,
真实三维地形场景可视化仿真模拟目前应用非常广泛,在军事领域、地形勘测、气象检测、土木工程等领域都具有很高的实际应用价值。在这些应用中,都需要对复杂的真实地形地貌进
70年代以来,人们探索不同的学习策略和学习方法,且在本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功,促进机器学习的发展。1980年,在美国的卡内基—梅隆(CMU、)召开
随着市场经济的发展和运输行业的激烈竞争,大量货物向汽车、航空、航运及邮政快件等运输方式分流,这种形势迫使铁路必须进一步提高管理水平和改善服务,以便以有利的优势把托
地理信息系统在飞速发展同时,对现实世界中的地理问题进行空间分析的能力上的相对不足成为遏制其继续发展的瓶颈之一.近年来,人工智能领域取得的研究成果为这一问题的解决找
网络管理是规划、监督、控制网络资源的使用和网络的各种活动,以使网络的运行达到优化和合理。 中国移动省级话务网网络管理系统经过二期建设后,已经形成了一个基础网络管理
本文首先对网格,尤其是数据网格的概念、特点及其发展历程和趋势进行了全面的了解,并结合远程教育资源建设的应用需求和现状,对具体的工作进行了编排。数据网格在网格基本功能的