基于图学习算法的几个问题研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:cart008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对先验信息的表达和利用是提高机器学习方法性能的重要途径,而数据的空间结构是先验信息的重要表现形式之一。近年来,利用图来刻画数据间内在结构的方法受到研究人员大量的关注。一般而言,基于图学习算法要得益于其对局部结构的表达能力以及其与经典方法(如核方法)的紧密联系。当前,该类方法已广泛应用于不同任务中(如分类、聚类和降维);其中,基于图的半监督学习方法具有能自然地将无监督学习和监督学习各自优点结合到一起的特点而成为半监督学习领域的研究热点之一。   尽管文献中已给出大量基于图半监督学习算法,但其基本问题--图的构造问题,仍然没有得到很好的研究和足够的重视,许多实验已表明图构造问题对学习性能有明显的影响。在本文中,本文作者首先考虑图的构造问题:包括加权图的权重学习和多视角图的融合;其次,考虑对图建立合适的模型来进行直推学习,给出了一个新型的随机游走模型;同时,将图描述为正则化因子项,应用于非负矩阵分解算法中;最后,考虑二部图问题,提出了一个投影策略来降低现有问题规模,从而使得排序学习在大规模数据集上的应用得以实现,结合推荐系统的应用给出了二部图约简应用的具体过程。   本文的主要贡献包括以下几点:   ①图上参数学习和多视角图的融合进化策略:为找到加权图中合适的权重系数,文中应用往返时间来取代简单的欧式空间的距离度量,使得构造的图在学习算法中表现更为鲁棒;针对存在多视角图的关系问题,文中给出一个融合策略来充分利用这些先验信息;实验结果表明了该策略对学习性能有明显改善。   ②直接在图上构建直推学习模型:文中建议通过引入虚拟节点的模式来克服以往随机游走模型的限制,提高了随机游走模型的通用性,并提出了用迭代的自学习机制来提高性能;另一方面,图约束关系可以描述成一个正则化框架下的因子项,文中提出将其应用于非负矩阵分解算法中,该模型在文档聚类任务中表现出较好的性能。   ③对于具有二部图结构的大规模数据问题,文中讨论了通过投影的策略来缩小计算规模,考虑基于项目评分的推荐模型,给出了新的协同算法。实验验证了所给方案在标准数据集测试中有良好的表现。   总的说来,本文讨论了通过构造图进行学习算法的相关模型、理论和改进,同已有方法的对比实验证实了所建议几个方案的优越性。
其他文献
本文重点研究了DNA微阵列基因表达数据挖掘算法,涉及孤立点检测、特征选取以及聚类、分类算法研究,这些算法应用于DNA微阵列基因表达数据分析均取得了比较好的效果。 在DN
无线传感器网络是近年来得到普遍重视并迅速发展的新型网络技术。与传统的网络技术不同,无线传感器网络技术将现代无线通信技术、微型传感器技术和网络技术有机地融为一体,在环
脑机接口是一种不依赖于人脑的正常输出通道的脑机通讯系统,是一种新的人机接口方式。它的实质是通过脑电信号推断人的想法和目的,从而实现人机交流。脑机接口既是人类了解和
静息fMRI信号和个体认知功能差异的关系对于理解静息fMRI的生理意义及其临床应用十分重要,但很少有研究系统地考察这一问题。本文就是针对这一个问题从不同侧面研究了静息fMRI
命名实体的翻译和抽取在许多自然语言处理领域的任务中有重要作用,近年来受到了越来越多的关注。尤其在机器翻译领域,命名实体的翻译更是起到了至关重要的作用。本文的研究重点
语音识别技术是实现人机交互智能化必不可少的技术之一,是计算机技术非常有前途的发展方向。语音识别经过几十年的研究,已经取得了很大的成果,某些比较成熟的技术已经逐步应用于
分布式井-地电位测量仪用于采集油气开发现场的井-地电位数据,是研究高含水期油田注水分布和剩余油分布的一种新型电法仪器。本文对井-地电位检测系统进行了深入研究,提出了分
城市道路交通犹如人们生活的命脉,发生在道路上的交通事件,特别是交通事故的频发,严重地影响了正常的交通秩序,不仅危及生命,使国家和人民的财产遭受重大损失。交通事件应急
复杂网络近年来受到来自科学与工程各个领域研究者越来越多的关注,成为了研究的一个热点。现实中的许多系统均可以用复杂网络来进行描述,例如:因特网,万维网,电力网,局域网,脑神经
尽管基于神经网络的机器人步态学习控制问题已经被广泛研究,然而已有的研究成果对于神经网络能否学习到系统未知动力学模型并没有进行深入探讨。这导致了在已有的控制策略中,