基于图卷积网络的半监督图分类研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:jinzhan2090
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图作为一种无处不在的数据结构,因其强大的表示能力,广泛存在于社交网络、推荐系统、生物化学和金融系统等领域中。由于这些图数据中往往存储着很多有价值的信息,不少学者进行图数据研究以探索数据中的重要信息,其中节点分类是图数据研究中的一项热门任务。例如,在蛋白质分子网络中,通过分析蛋白质网络的相互关系进行分类学习,从而得到蛋白质的相关性质。这不仅有利于理解蛋白质的特性,而且对生物制药,农林科技等领域同样具有指导意义。
  然而,现如今数据以几何速度增长,数据中存在着大量未标记的节点,采用有监督学习较为困难。早期利用专家的先验知识进行人工数据标记,但标记大量数据的代价较大,并且费时费力,因此学者们提出了半监督学习。不同于监督学习和无监督学习,半监督学习在保证模型良好的泛化能力的基础上解决了标记数据大量缺少的问题,同时提升了人工标记的效率和模型学习性能。如何利用现有的半监督分类学习模型对图网络中的未标记节点进行分类预测成为热点话题。随着深度学习的快速发展,图卷积网络成为处理图上不规则结构数据的有力工具,在节点分类等图表示学习任务上取得了令人满意的效果。
  本文通过对已有的图卷积网络算法和半监督学习算法进行分析发现,在半监督图卷积网络中,图结构用于指导图卷积运算。在图结构不准确甚至是不可用的情况下,可以从数据中推断或学习图结构用于指导后续的卷积操作。但是现有的研究常基于简单距离度量来构造图结构(例如k-近邻图),简单的图结构不一定能充分挖掘节点之间的相似关系导致节点分类任务性能较差。因此,本文将针对现有图卷积网络模型在图结构上存在的问题,基于自适应图学习,低秩学习、稀疏学习和多视图学习提出两种生成高质量图结构的方法,并用于图卷积网络作半监督分类。主要内容如下:
  (1)基于超图的半监督学习图卷积网络。现有的图卷积网络大多忽略图结构的质量,从而导致分类性能不理想。针对这个问题,本文提出一种新的图学习方法来输出高质量的图结构。首先,采用自适应图学习获取数据内在的低层相关性,并从超图中学习更有价值的高层相关性。然后,将稀疏学习和低秩约束分别与图学习相结合,去除冗余信息。最后得到一个紧凑的图结构以促进图卷积网络的信息聚合。实验结果表明,本文提出的图学习方法能够显著提高图卷积网络的半监督分类性能。
  (2)基于多视图学习的图卷积网络半监督分类。一般情况下,图卷积网络仅利用单一视图来指导图卷积运算,但单视图只考虑视图内的结构信息,而没有充分利用到不同视图间的相关信息。针对这个问题,本文提出一种基于多视图学习的图卷积网络半监督分类方法。首先,采用多视图学习,同时结合低秩约束降低数据的冗余信息带来的影响,从多视图数据中学习一个共享的高质量图结构,最后将该图结构输入到图卷积网络作半监督分类。实验结果表明,本文提出的多视图学习方法在图卷积网络的半监督分类任务上优于其它对比方法。
  针对现有的图卷积网络大多忽略图结构质量这个问题,本文对图学习方法进行了改进,并将半监督分类算法作为实验的评估途径。实验结果表明本文提出的图学习方法在图卷积网络的半监督分类性能上优于选取的对比方法。在未来的工作中,将考虑探索如何动态地进行图学习,同时将图卷积集成到一个统一的框架中进行学习,从而获得更优的图结构。此外,还将探索不同多图融合的方法对半监督图卷积网络模型中图结构质量的影响。
其他文献
多相流现象对我们的生活生产具有重要的借鉴和指导意义,在能源的开发与储备、生命科学的研究与探索、材料的制备与应用等方面有着广阔的发展前景。其中多相流中液滴弹跳现象与我们的生活最为紧密,已经应用于我们的生活中,如打印、喷涂、自清洁等。液滴弹跳现象的研究在国内外已经取得了丰硕的成果,但仍然还有许多未被研究和深入探索的领域,特别是对液滴弹跳现象定量分析的研究相当少,加之液滴微尺度、瞬息变化快、易于变形等诸
学位
随着移动拍照设备的广泛使用,每天连续产生大量的图像,传统的图像数据管理工作包括图像存储、处理和检索技术已经无法适应快速增长的数据所带来的压力。用户往往将大量图像数据外包到云服务器以减少本地存储成本,同时为了确保图像安全防止隐私泄露而选择在外包之前对图像数据进行加密。然而加密后的图像数据失去了明文特征和数据之间的关联性,影响用户对图像数据的管理,导致无法进行高效地图像检索。虽然可以事先构造加密索引并
图像检索是模式识别中极具挑战性的研究方向。其中特征提取和紧凑的特征描述是图像检索技术的重要组成部分。传统的图像检索技术主要由两部分组成:(1)基于文本的图像检索(TBIR);(2)基于内容的图像检索(CBIR)。TBIR技术存在局限性且难以精确描述图像内容,而CBIR虽然能够通过低层视觉特征传达图像信息,但在高层语义表达方面仍存在很多不足。近些年,卷积神经网络(CNN)在图像检索和图像分类等任务中
学位
多相流不仅普遍存在于生活之中,在许多自然现象和工业生产中更有广泛应用。更好地了解和研究多相流的机理和性能,不仅能够帮助人们了解自然认识自然,在工业生产中创造更多的价值,而且在科学进步以及能源开采等方面有着重要的意义。表面润湿性作为多相流中的一个重要性质,用于表征液体在固体表面的延展能力,用接触角的大小来进行度量。接触角是在液体表面和固体表面之间的接触位置形成的特征角度,是很多工业应用和自然现象的基
学位
癌症驱动模块对癌症精准医疗和个性化医疗的重要性,使癌症驱动模块识别问题成为生物信息学的研究热点。对该问题的研究方法主要分为两大类:一类是从头识别方法,另一类是基于先验知识的识别方法。本文主要利用第二类方法对识别问题进行研究,针对组学数据噪声多、不完整、单一组学数据信息有限等特征,通过蛋白质相互作用网络整合多组学数据信息以提高数据的完整性和准确性,提出基于网络模型的癌症驱动模块识别方法,主要工作如下
轨迹数据可以反映用户的兴趣和偏好,如果没有经过匿名化处理,这些私人数据是不能直接发布的。基于用户的轨迹数据,攻击者能够根据用户的部分位置进行时空关联推测出用户的其他敏感位置信息,导致用户隐私的泄露。目前,大多数轨迹数据发布中的隐私保护方法要么将所有的位置信息都视为敏感信息,要么只单从位置标签或访问频率进行敏感位置的区分,以提高数据的效用性。然而,不同的位置对于不同的用户而言,是具有不同敏感度的,如
学位
近年来,随着我国经济的发展,无人机行业取得了蓬勃的发展。无人机在军事勘察、环境监测、应急指挥、农业生产等领域有着广泛的应用。在这些应用中,需要利用无人机拍摄图像或影像。当利用无人机拍摄图像时,受到飞行高度和相机焦距的限制,单幅图像往往无法覆盖整个目标区域。因此需要对无人机拍摄的多幅航拍图像进行拼接,来获取覆盖整个目标区域的图像。一直以来,图像拼接都是国内外研究的热点。完整的图像拼接包括图像获取、图
学位
可满足性问题(SAT)是第一个被证明的NP-完全问题,在人工智能和计算机科学中占据着重要的位置,许多问题都可以转化为SAT问题进行求解。最近杨洋等人提出了一种新的基于局部搜索的扩展规则方法ERACC(Extension Rule Based on Accurate Configuration Checking),该方法突破了传统基于扩展规则方法对实例规模的局限。然而,ERACC在k-SAT(k&g
随着互联网技术的迅速发展,每天都有海量的数据产生,这大大提升了机器学习算法性能的同时,也让其遭受到了巨大的隐私威胁。机器学习的隐私保护已经成为当前的一个研究热点。集成学习作为机器学习的一个重要分支,被认为是人群智慧的机器学习解释,其主要思想是通过规则训练多个学习器,然后根据某种组合策略进行组合,最后以投票的方式输出最终结果。集成学习由其高精度和稳定等特点被广泛应用到数据挖掘、医疗诊断等多个领域。但
学位
随着人工智能的兴旺,电子商务行业迎来了新的发展机遇。随着在线交易的频率和规模的增加,商家与客户之间的在线协商和沟通变得越来越频繁。因为它们无法实现谈判,也无法分析用户,因此难以针对特定用户更好地达成交易。在线交易谈判流程的自动化已逐渐成为商家和消费者的潜在需求。但是,现有的在线对话系统(例如淘宝上的阿里小蜜和京东的在线客户服务)无法很好地满足这样的需求。目前,一方面,自动谈判的研究者主要集中在计算
学位