面向成分数据分析的机器学习算法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:godbless97
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机视觉和机器学习中,我们研究的对象(三维模型,图像,文档)常常可以被认为是由一些不同的成分或部分所构成的整体。在分类或者基于内容的信息检索等问题中,这样的对象可以用所谓成分数据(和为常数的正实数向量,即单纯形上的点)来表示。从概率的观点来看,成分数据可以理解为是一组互补且互斥事件的概率。这样,成分数据的表示形式有非常广阔的应用背景。本文研究了面向成分数据的几个基本的机器学习问题,包括降维,度量学习,以及多示例学习中的核方法。 本文的贡献主要包括以下几个方面: 1.成分数据所特有的单纯形约束及其相关的统计特性对传统的降维问题提出了新的挑战。本文提出了一种针对成分数据的降维(特征抽取)方法,该方法利用了单纯形到自身的线性变换族和单纯形上的狄利克雷分布的特性。 2.成分数据中的变量直接对应于对象的成分或部分,这些成分或部分之间常常有不可忽略的语义关系。本文提出了一种无监督的度量学习方法,该方法发掘并利用这些关系为成分数据定义了一个更合理的距离度量。这个距离度量可以用于分类,聚类,和信息检索等算法中。 3.三维模型,图像,文档的分类问题也可以被抽象为多示例学习的问题,即单个待分类对象可以看作一些示例或特征的包。这些包的类别是由其内的示例的类别按照特定的规则决定。我们利用成分数据来表示包中各种示例所占的比例,并提出一个针对成分数据的核方法[26],它可以自动区分并适应不同的多示例学习问题中的“包类别产生机制”。该方法给出了一个“广义多示例学习”的新框架。 本文所提出的一系列方法在理论和应用上都有一定的价值。其中面向成分数据的非监督度量学习和降维方法分别利用了单纯形上的狄利克雷分布族的两方面特性,在将来的工作中有望建立一个统一的理论框架。另外,本文提出的“广义多示例学习”是对传统多示例学习概念的自然理论拓展,可以作为后续研究工作的基础。
其他文献
传统单孔径成像系统的空间衍射极限角分辨力受限于望远镜的口径,为了更好的获得观测目标的细节信息,需要不断增大系统的孔径尺寸。但是光学加工、制造费用和运载能力等限制因素
本文重点研究了锥束CT投影仿真系统的数学建模,并用C语言编程实现基于矢量模型的锥束CT投影仿真系统,对检测物体进行精确的投影仿真。主要研究内容及成果如下: 1.锥束X-ray
随着光纤通信技术的迅猛发展,基于拉曼效应的全光放大器在大容量长距离通信系统中有着不可替代的作用。本文所讨论的问题包括拉曼放大器泵浦效率的提升,具有色散斜率补偿与功率
随着传统抗生素的广泛使用,关于药物残留和菌株耐药性等问题的争论日益激烈。研究与开发更为有效,同时对人、动物及环境安全无害的传统抗生素替代品是当今科研领域的研究热点之
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
基于物理的计算机动画是一种极具优势的三维造型和运动模拟技术,一直是图形学领域的研究热点。但是现有的用于基于物理规律动画的动力学分析方法还不能很好地统一处理多体变形
学位
基于2017年中国家庭金融调查数据,本文运用普通最小二乘法和倾向得分匹配方法实证分析金融素养对城镇家庭消费支出和消费结构的影响,并且通过多重中介效应模型检验其作用机制
在很多计算机视觉应用中,一个基础而关键的任务是从视频序列中确定运动目标,其中对于固定摄像机下运动目标的检测图像序列中运动目标的检测与跟踪在现代社会中的应用越来越广泛
本文基于广东省分级核算遇到的不衔接和不一致问题,从上下统一核算的视角,结合现实核算操作实际,通过对比分析现行快报、年报与经济普查年度3种不同核算方法逻辑,发现其在操
生态环境已经成为我国各级政府为民众提供的公共产品,为评价政府环境治理效果,本文基于2004—2015年我国30个省、区、市的数据,编制自然环境指数和核算净碳排放,并加入胡焕庸