论文部分内容阅读
图结构数据,像交通运输网、地铁网络和社交网络等在现实世界中大量存在。因此,学习并理解图是机器学习中的关键。目前关于图的研究主要分为:图分类和节点分类。节点分类通过给定一个在某些节点上带有标签的网络,它将预测该网络上其他节点的标签,是网络挖掘中非常重要的任务。节点分类实际上是一个机器学习问题,它将机器学习中的分类模型应用到了网络中。节点分类本质是对已有的分类模型进行改进,使其获得更好的分类效果。图表示学习中的图卷积网络作为卷积神经网络在图数据处理中的扩展,在节点分类任务中获得了满意的评价,并已成功应用于网络分析中的节点分类任务。
现有图卷积网络在节点分类存在一些问题。首先,图卷积网络使用的是具有图结构的网络数据,不适用于没有图结构的数据。其次,原始数据属性之间通常包含非线性关系,这在低维空间中很难捕获,而目前的图卷积网络并没有考虑到数据属性之间的非线性关系。再次,原始的数据通常包含噪点和冗余特征,这些会对构造的图表示产生不好的影响,从而影响节点分类结果。此外,目前大多数图卷积网络使用的是单一的欧式距离来计算两个样本之间的距离,它将样本的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求而且单距离度量学习可能出现过拟合问题。本文针对上述图卷积网络在节点分类中存在的问题结合图表示学习、核方法、特征选择、稀疏学习等理论提出了两种改进的卷积网络算法以用于节点分类任务。其核心内容和原创点如下:
1.针对目前大多数图卷积网络仅适用于图结构数据,原始的欧几里得数据通常包含噪点和冗余信息以及数据属性之间存在非线性关系。本文提出了一种新的非线性图学习卷积网络算法。该算法首先利用核函数比如高斯核函数将原始欧几里得数据映射到核空间,使得原始欧几里得数据线性可分,以此来捕获数据属性之间的非线性关系,然后使用基于结构信息的特征选择方法来去除噪点和冗余特征来构造一个高质量的图表示,最后使用一个常用的图卷积网络来进行节点分类任务。
2.针对目前大多数图卷积网络使用单一欧式距离来计算两个样本之间的距离而易出现过拟合,本文提出了一种新的多图核卷积网络算法。该算法首先使用多距离度量方法比如M氏距离获得多个可训练的距离度量。这多个可训练的距离度量就对应了多个图,每个图一个距离矩阵。该算法对输入的节点使用特征映射函数,来充分学习局部顶点特征信息和图拓扑信息,从而得到新的节点表示。然后通过距离矩阵和新的节点表示构造每个图的混合核函数,该混合核函数由一个基本核函数以及每个图构造的有效核函数构成。通过求解每个图的混合核函数,得到每个图的节点表示。最后本文通过一个池化对所有的节点表示进行批处理和归一化操作,利用池化后的结果进行节点分类性能的评估。
总之,本文提出的方法有效解决了目前图卷积网络的一些问题,如大多数图卷积网络仅适用于图结构数据、原始的数据通常包含噪点和冗余信息、数据间的非线性关系、单距离度量学习可能出现过拟合等问题。本文提出的方法在不同的评价指标上获得更好的节点分类性能。在未来的工作中,本人将考虑其他图卷积网络中存在的问题,例如高度非线性、结构保留、属性保留、稀疏性等,提出新的解决方案。
现有图卷积网络在节点分类存在一些问题。首先,图卷积网络使用的是具有图结构的网络数据,不适用于没有图结构的数据。其次,原始数据属性之间通常包含非线性关系,这在低维空间中很难捕获,而目前的图卷积网络并没有考虑到数据属性之间的非线性关系。再次,原始的数据通常包含噪点和冗余特征,这些会对构造的图表示产生不好的影响,从而影响节点分类结果。此外,目前大多数图卷积网络使用的是单一的欧式距离来计算两个样本之间的距离,它将样本的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求而且单距离度量学习可能出现过拟合问题。本文针对上述图卷积网络在节点分类中存在的问题结合图表示学习、核方法、特征选择、稀疏学习等理论提出了两种改进的卷积网络算法以用于节点分类任务。其核心内容和原创点如下:
1.针对目前大多数图卷积网络仅适用于图结构数据,原始的欧几里得数据通常包含噪点和冗余信息以及数据属性之间存在非线性关系。本文提出了一种新的非线性图学习卷积网络算法。该算法首先利用核函数比如高斯核函数将原始欧几里得数据映射到核空间,使得原始欧几里得数据线性可分,以此来捕获数据属性之间的非线性关系,然后使用基于结构信息的特征选择方法来去除噪点和冗余特征来构造一个高质量的图表示,最后使用一个常用的图卷积网络来进行节点分类任务。
2.针对目前大多数图卷积网络使用单一欧式距离来计算两个样本之间的距离而易出现过拟合,本文提出了一种新的多图核卷积网络算法。该算法首先使用多距离度量方法比如M氏距离获得多个可训练的距离度量。这多个可训练的距离度量就对应了多个图,每个图一个距离矩阵。该算法对输入的节点使用特征映射函数,来充分学习局部顶点特征信息和图拓扑信息,从而得到新的节点表示。然后通过距离矩阵和新的节点表示构造每个图的混合核函数,该混合核函数由一个基本核函数以及每个图构造的有效核函数构成。通过求解每个图的混合核函数,得到每个图的节点表示。最后本文通过一个池化对所有的节点表示进行批处理和归一化操作,利用池化后的结果进行节点分类性能的评估。
总之,本文提出的方法有效解决了目前图卷积网络的一些问题,如大多数图卷积网络仅适用于图结构数据、原始的数据通常包含噪点和冗余信息、数据间的非线性关系、单距离度量学习可能出现过拟合等问题。本文提出的方法在不同的评价指标上获得更好的节点分类性能。在未来的工作中,本人将考虑其他图卷积网络中存在的问题,例如高度非线性、结构保留、属性保留、稀疏性等,提出新的解决方案。