论文部分内容阅读
异质网络指由不同类型的节点或连边构成的复杂网络。由于其复杂多样化的连边关系蕴含着丰富的语义信息,能够更加形象、灵活地建模现实世界的异构数据,因此,异质网络的研究成为学术界和工业界的研究热点。然而,也正是由于异质网络中节点间的复杂关系,如何更好地进行异质网络的表示学习成为当今复杂网络研究领域最具挑战性的基础研究课题之一。目前,研究异质网络表示学习的一个重要思路是基于分解的异质网络表示学习方法,即利用语义元路径将复杂的异质网络分解为多个同质网络,“分而治之”地进行表示学习,然后再将这些表示进行融合。这种异质网络表示学习方法主要面临两个挑战:第一,同质网络表示学习问题,即如何有效地学习基于元路径分解的同质网络的节点表示;第二,多源异质信息的融合问题,即如何将不同元路径信息和网络中其它异质信息(如属性、文本等)进行有效融合。针对第一个挑战,虽然目前取得了很大进展,但是,提出的方法多针对无符号网络,不能实现含有极性关系的符号网络表示学习任务;针对第二个挑战,目前也取得一些进展。但是,大部分方法仅仅是利用网络中有限的显式元路径进行信息融合,而缺乏考虑隐式元路径对信息融合的影响。如何有效地挖掘并利用由于影响力传播而产生的大量隐式元路径信息亟待研究;而且,现有的研究主要致力于对异质网络的结构信息建模,并没有充分挖掘网络中的其它模态信息。事实上,异质网络包含着大量多模态信息,如节点和关系的属性信息等,融合这些多模态信息能够学习到更加准确的节点表示。针对上述问题,本论文展开了符号网络表示学习和多源异质信息融合两方面的研究,创新地提出融合多语义元路径的加权符号异质网络表示学习模型和方法,以解决异质网络表示学习中的极性关系表示、影响力传播隐式元路径融合和多模态信息融合等问题。本文的主要创新成果如下:(1)提出了基于平均通勤时间的符号网络谱表示方法针对符号网络表示学习的关键问题——如何在低维嵌入向量空间中保持符号网络的负关系,提出了基于平均通勤时间的符号网络谱表示方法CD-SNE。首先,设计了一种适合于符号网络的随机游走模型,适当减小正边连接节点间的平均通勤时间的同时增加负边连接节点间的平均通勤时间,使学习到的节点表示保持了符号网络的一阶接近度;然后,发现并利用平均通勤时间与拉普拉斯矩阵之间的关系,构建了扩展的符号图拉普拉斯矩阵,学习符号网络的谱表示,并理论上证明了学习的谱表示是有效的符号网络的低维向量表达,能保持原始符号网络中平均通勤时间。实验结果表明,通过本论文方法学习到的符号网络低维向量表示保持了符号网络的节点一阶接近度,既保持了正边的接近度也保持了负边的远离度,能够准确地预测节点之间连边的符号;另外,通过设置合理的收缩因子,拉大了社团之间的距离,得到较好的社团划分结果。(2)提出了基于二阶近邻随机游走的符号网络表示学习方法针对上述工作提出的符号网络谱表示方法仅保持了网络节点的一阶接近度,以及计算时空代价较高的问题,本论文提出了一种基于二阶近邻随机游走的符号网络表示学习方法NRW-SNE。该方法设计了一种新的符号网络的有偏随机游走模型,使游走者自适应地选择沿一阶近邻游走或沿二阶近邻游走,这样学习到的节点表示同时保持了一阶近邻接近度和二阶近邻接近度;而且,网络的节点表示学习环节采取了基于神经网络结构的最大化节点共现概率的学习框架,提高了符号网络表示学习算法的计算效率,使其适用于大规模符号网络。实验结果表明,本论文方法学习到的节点表示在社团划分和符号预测任务上都较谱表示方法有很大的提高。(3)提出了基于影响力传播元路径融合的异质网络表示学习方法针对异质网络信息融合缺乏考虑影响力传播产生的隐式元路径的问题,本论文提出了一种基于影响力传播元路径融合的异质网络表示学习方法ID-HNE,研究了异质网络中由于影响力传播而产生的复杂隐式元路径在节点表示中的融合问题。本论文首先对异质网络中基于影响力传播的隐式元路径进行建模,发现并利用影响力传播元路径融合的关系矩阵与Katz相似度的关系,将影响力传播元路径集合融合为单一元路径;然后,利用半监督堆叠去噪自编码器在保持基于元路径接近度的基础上学习每种元路径下的节点表示,并将不同元路径下的节点表示深度融合,得到节点的高度非线性低维向量表达。最后,在药物异质网络数据集和推荐系统中实验验证了ID-HNE方法学习到的节点表示的有效性。(4)提出了多源信息融合的加权符号异质网络表示学习方法在上述工作基础上,本论文进一步研究了异质网络结构信息以外的其它异质信息(如节点属性和关系属性)在节点表示中的融合问题,提出了多源信息融合的加权符号异质网络表示学习方法WHSE,该方法以推荐系统这一典型的异质网络为研究对象,深入融合了推荐系统的多源异质信息。该方法首先提出了一种基于加权元路径的接近度来定义用户反馈的极性相似关系,将用户反馈信息体现的用户喜好极性关系融合到用户特征建模中;其次,在基于元路径的同质子网络表示学习阶段,本论文采取了加权采样随机游走方法,获得保持连边符号和权重的节点序列,使学习的节点表示最大程度保留网络中的原始语义关系;再次,在异质信息深度融合阶段,本论文采用注意力机制和池化操作,融合了语义元路径信息和属性信息;最后,结合具体的评分预测任务优化模型学习用户/项的最终节点表示。实验证明,WSHE方法学习到的用户/项的表示能有效提高推荐性能。