模式分类中的鲁棒损失函数的设计及其在不平衡数据中的应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:myeclipse76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式分类是人工智能的一个基础研究领域,是从数据中获取有效信息的一个重要手段。各种各样的分类器被相继提出,并被广泛地用于解决许多实际问题。在实际的分类问题中,存在两种常见的分类问题,一种是分类器对异常样本的鲁棒性问题,另一种是不平衡数据分类问题。因为常见的基于无界凸损失函数的分类器对异常样本的鲁棒性较差,所以异常样本可能会降低它们的分类性能。此外,由于常见分类器一般假设不同类别的样本分布近似平衡或者错分代价近似相等,所以它们在不平衡数据分类问题中的分类结果可能不满足实际要求。目前,有许多单独研究鲁棒分类问题或者单独研究不平衡数据分类问题的论文,但是同时研究这两种分类问题的论文却不多。针对上述的分类问题,本文首先提出了一组基于有界压缩变换的鲁棒损失函数用于减弱异常样本对分类器性能的影响。然后,在代价敏感学习的框架下,本文将所提出的鲁棒损失函数和非对称阶式最小二乘损失函数用于处理含有异常样本的不平衡数据分类问题。最后,在代价缺失学习的框架下,本文研究了支持向量机的互信息拒识分类准则。该拒识分类准则可以筛选出分类置信度较低的模糊样本。本文所取得的主要成果如下  1.根据基于Correntropy的损失函数与最小二乘损失函数之间的关系,本文提出了损失函数的有界压缩变换方法。该有界压缩变换方法能够统一地将常见的无界凸损失函数,例如铰链损失函数(hinge loss function),逻辑损失函数和指数损失函数,转化为对应的有界非凸鲁棒损失函数。与损失函数的截断方法不同,该有界压缩变换方法是对无界凸损失函数进行光滑变换,所以具有更好的优化性质。本文分别推导了基于这些鲁棒损失函数的鲁棒分类器,并采用了半二次优化方法来优化它们。半二次优化方法包含两个迭代步骤:一个是样本权重系数更新;另一个是求解凸优化问题,该凸优化问题对应一种加权分类器。通过半二次优化方法,本文将这些鲁棒分类器与已有的加权分类器建立了联系,从而能够从鲁棒损失函数的角度解释加权分类器的鲁棒特性。人造数据集和真实数据集上的实验结果表明,本文所提出的这些鲁棒分类器能够有效地降低异常样本对分类器性能的影响。  2.在代价敏感学习的框架下,本文将非对称阶式最小二乘损失函数(asymmetricstagewise least square loss function)和基于有界压缩变换的鲁棒损失函数应用于含有异常样本的不平衡数据分类问题。目前,有很多单独研究鲁棒分类问题或者单独研究不平衡数据分类问题的论文,但是同时研究这两种分类问题的论文却不多。本文提出了代价敏感学习和鲁棒损失函数相结合的方法来改善分类器在含有异常样本的不平衡数据集上的分类结果。其中,代价敏感学习用于克服样本分布不平衡的问题,鲁棒损失函数用于减弱异常样本的负面影响。非对称阶式最小二乘损失函数也是一种鲁棒损失函数,该损失函数给不同类别的样本不同的损失上界和不同的margin,从而保护正类样本。实验结果表明这种结合的方法可以改善分类器在这种数据集上的分类结果。  3.在代价缺失学习的框架下,本文研究了支持向量机的互信息拒识分类准则。当遇到模糊样本时,人们可能会拒绝判断该样本的类别。将模糊样本判断为拒识类别也是一种有效地改善分类结果的方法,而被拒识的样本可以被进一步地分析或者使用其他的分类器来判断类别。互信息能够自动平衡错分样本和拒识样本的数量。在代价缺失学习的框架下,本文分析了支持向量机的互信息拒识分类准则。此外,本文还讨论了互信息拒识分类准则与代价敏感学习之间的联系,推导了等价的损失代价。该等价的损失代价可以作为代价敏感学习中损失代价的参考。本文将该支持向量机的互信息拒识分类准则应用于含有异常样本的不平衡数据分类问题。实验结果表明该互信息拒识分类准则通过拒识模糊样本,可以达到改善分类结果的目的。
其他文献
学位
家庭网关是智能家居系统的监控核心,是保障系统安全稳定运行的关键。本文针对嵌入式家庭网关的系统设计进行了理论研究和实践,并探讨了其在家居系统中的具体应用。  本论文的
本研究课题的试验主体是对LGM-15/45轿车轮毂轴承的性能测试,研究的主要范围包括软件的设计、硬件的选型和搭建、控制理论方法的选择及控制参数的优化,如何进一步提高测试系
本论文对遗传算法的运行机制进行了研究,综合应用遗传算法和惩罚函数法相结合的最优化理论和技术,进行了污水处理过程优化控制遗传算法程序的设计和模拟仿真。仿真结果表明:在某
本文以首钢三炼钢生产组织为研究对象,研究静态计划编排算法,并以算法为基础设计并开发计划编排辅助系统,指导炼钢连铸车间生产。 结合首钢三炼钢生产作业特点,本文研究静态计
随着操作系统和应用系统的不断发展和广泛应用,其规模越做越大越复杂,其可靠性和可用性也越来越难以保证。通常在整个系统中,软件故障所引起的系统运转中断远远高于硬件故障。软
本课题以肉类新鲜度检测为研究对象,以数据融合为理论基础,对发展应用较为成熟的人工神经网络技术及基于神经网络的数据融合技术进行了分析研究。在分析了肉类变质机理的基础上
由于人类生活于地球大气的边界层,人类的所有活动都受到边界层大气变化的影响,所以探测边界层大气的变化就显得尤为重要。而低空探测是人们研究边界层大气运动规律的一种常用方
地物分析是指利用观测数据认识地球表面物体性质的过程,可广泛应用于资源勘查、土地规划、灾情防治诸多方面。数字高程模型(DEM)和多光谱图像是进行地物分析的两种重要数据源,
本文在分布式人工智能和Agent技术的基础上,以国家旅游局金旅工程为应用对象,对Agent技术在分布式智能信息系统中的理论与应用进行研究。论文的主要工作和创新点如下:①提出并建