欧氏度量学习

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户：jianqing3232

【摘要】

：

在当前的信息时代中，大量的高维数，复杂结构数据不断涌现，而且对机器自动分析和处理数据的要求越来越高。人们希望机器可以处理各种复杂的任务。而传统机器学习中，以二分类为主的

【作者】

：

李伏欣

【机构】

：

中国科学院自动化研究所

【出处】

：

中国科学院自动化研究所

【发表日期】

：

2008年期

【关键词】

：

表示定理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在当前的信息时代中，大量的高维数，复杂结构数据不断涌现，而且对机器自动分析和处理数据的要求越来越高。人们希望机器可以处理各种复杂的任务。而传统机器学习中，以二分类为主的预测范式，已经越来越难以满足各种复杂多样的需求。探询新的机器学习范式，是目前机器学习研究中的一项重要任务。而基于相似度/不相似度的匹配范式有认知心理学的基础，符合人类认知的特点，并且有广泛的适用范围。因此，对匹配范式的研究，已经越来越受到人们的重视。　　从机器学习的观点来看，匹配范式中相似度/不相似度的学习是机器学习需要研究的任务。而在各种不相似度函数中，度量是具有很好数学性质的一类。本文对如何学习一类可以等距嵌入欧氏空间的度量进行了较为系统的研究。我们称这类度量为欧氏度量，但它不同于输入空间的欧氏度量。我们指出，学习欧氏度量等价于学习对称半正定核。通过本文证明的表示定理，说明了欧氏度量等价于对输入空间进行一定的非线性变换后得到的度量。并由此提出了完整的欧氏度量学习框架。此框架区分了度量学习的两个部分，即先验度量和训练约束。文中讨论了这两个部分的表示方式。并通过表示定理，提供统一的方式将训练集上学得的度量推广到全空间。以往的一大类监督，非监督，半监督的非线性维数约简算法均可以纳入框架。依此观点，对前人在非线性维数约简及度量学习方面的工作进行了综述。　　根据欧氏度量学习框架，提出了三个欧氏度量学习算法。第一个算法由于使用一个特殊的损失函数，而可利用谱方法求解。即，可将其描述为某个矩阵的特征值问题，而矩阵的某些特征向量即为其解。在使用图Laplacian诱导的度量做为先验度量时，此特征值问题可以变为稀疏特征值问题。因此利用Krylov子空间方法求解此问题，可使方法能够处理大规模的数据集。当标签样本较少时，简单的损失函数可以导致学得的度量出现异常的扭曲。由此，本文提出了一种平滑化技术，对损失函数进行平滑化，解决了这一问题。　　之后，通过引入Bregman divergence作为正则化项，将任意凸二阶可微损失函数意义下的欧氏度量学习和核学习问题表示为一个无约束的优化问题，其中，整个核矩阵为优化变量。由于优化变量的个数是样本数的平方级，通常的牛顿法和拟牛顿法难以应用。本文提出了两种方法求解这一问题。第一种方法称为再开始的半牛顿法，它利用Hessian算子中的部分信息，计算一种特殊的半牛顿步进行迭代。第二种方法是信赖域截断牛顿法。它通过对Hessian算子方程进行提前终止的共轭梯度法寻找牛顿步的近似，并利用此近似进行信赖域迭代。这两种方法可在样本数立方级的时间内解决度量学习问题。信赖域截断牛顿法的收敛速度很快，然而每步的开销大于半牛顿法。因此，对于简单的优化问题，半牛顿法更为适用。而对于复杂的优化问题，信赖域法较为优胜。这两种算法有一共同特性，即其均可以在一次计算中算出优化问题对应于不同正则化参数的多个解，而计算代价与计算一个解相比，没有显著的增加。这一特性简化了最优正则化参数的寻找过程，并且提示了正则化方法解路径与半定规划中内点法中心路径之间的联系。　　文中对提出的算法在模拟数据以及若干UCI数据集上进行了实验。对于第一个算法，还在70000个样本的MNIST数据集上进行了实验。

其他文献

基于惯性摆的波浪能获取机理与方法研究

随着陆地战略资源日益短缺以及经济的全球化进展，海洋资源的开发利用己成为沿海各国的重要发展战略之一，也成为地球资源保护与开发的关注热点。　　海洋资源开发和利用能力对

学位

惯性摆

分数阶定量反馈理论的研究与应用

定量反馈理论(quantitative feedback theory, QFT)是鲁棒控制理论的一个重要分支,与其他鲁棒控制理论相比,它具有以下几个重要特点：可以定量估计反馈代价；可以考虑相位信息；不

学位

分数阶控制器自动回路成型前置滤波器设计粒子群算法

基于EPN的原油库存混杂系统的建模与调度研究

石油炼化行业是国民经济中的支柱产业,在经济发展中起着至关重要的作用。原油库存计划与调度过程作为石油炼化企业生产计划中的关键一个环节,对其的分析和研究具有重要的意义

学位

石油炼化行业油库存计划调度过程

随机环境下分布式能力分配问题模型与算法的研究

能力分配问题作为企业生产经营过程中的一类重要的决策问题,具有广泛的应用背景和研究意义。由于近些年,随着经济全球化和企业的跨国经营,为了实现自身的不断增长,快速响应市场需求和变化,越来越多的企业采用分布式的运作模式,因此,对分布式环境下的能力分配问题的研究迫在眉睫。另一方面,由于当今社会的多样化和复杂化,企业决策者在决策过程中要面临着越来越多的不确定因素和不对称信息。因此,不确定性环境下带有私有信息

学位

能力分配分布式决策随机规划拉格朗日松弛次梯度优化

信息抽取算法研究及其在科研服务系统中的应用

随着Internet的迅猛发展,万维网已经成为全球最大的信息源和知识库,如何从中抽取出有用的信息,已成为研究学者关注的热点。科研服务系统是为高校的教师提供一个便捷的从事教

学位

信息抽取网页模板支持向量机启发式规则科研服务

高性能低功耗的数字信号处理部件结构设计研究

在深亚微米媒体处理器S0.系统设计中，高性能低功耗功能单元的设计和实现是研究工作的关键问题之一。本文从深亚微米时代VLSI设计低功耗、低成本、高实时性的特点出发，主要研究

学位

媒体处理器功能单元结构设计深亚微米数字信号处理结构设计

基于WSN的机器人高精度室内定位跟踪系统

定位跟踪作为无线传感器网络关键问题之一,引起研究机构的广泛关注。移动机器人具有和环境主动交互的功能,在许多场合能够替代人类自动执行某些日常性与危险性任务。无线传感

学位

移动机器人高精度定位无线传感器网络到达时间差卡尔曼滤波

基于IEC61850的智能电子设备通信的研究

随着网络技术的飞速发展和科技的不断进步,各种各样的智能电子设备不断涌现。他们之间的互操作性研究随之成为关注的焦点。IEC61850的出台为智能电子设备之间的互操作性提供

学位

智能电子设备通信网络路由器通信规约

装甲车辆压缩空气系部件自动测试装置的研究

“装甲车辆压缩空气系部件自动测试装置”项目来源于2005年总装综合计划部维修改革项目。本测试系统是为装甲车辆压缩空气系部件的性能试验和九种部件的性能测试而设计的,其

学位

装甲车辆压缩空气系部件测试Visual C++自动测试平台

基于FPGA的ECT/ERT系统优化设计

电容层析成像(ECT)和电阻层析成像(ERT)是电学层析成像的两个主要分支,具有非侵入、无辐射、结构简单、成本低、适用范围广、响应速度快、安全性能好等优点,在工业多相流参数

学位

电容层析成像电阻层析成像FPGA图像重建算法

欧氏度量学习

其他学术论文