概率图上的对象相似度计算

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:qq12433184000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界中,很多实际问题都更适合于用“图”进行建模。在图挖掘领域,对象相似度作为一个重要课题,被广泛应用在链接预测、欺诈检测、协同过滤、近邻查询等众多实际问题中。在传统确定图上,节点相似度的研究受到了广泛关注并取得了很多成果。但是,确定图上对象相似度的定义和计算无法直接应用于概率图。  在可能世界模型下,概率图可以衍生出指数个可能世界实例,昂贵的计算代价是概率图上对象相似度计算面临的重要问题。目前,概率图上对象相似度计算的已有研究成果存在如下缺陷:一类算法是针对特殊图的特定算法,无法应用于一般图。这些特殊图有两种情况,或者所有概率相等,或者边分组出现,每组具有相同的概率。第二类算法是近似算法,使用抽样算法或者基于聚类的分组算法进行近似计算,虽然可以应用在一般图上,但是无法给出精确结果。第三类算法是枚举可能世界的Naive算法,算法的时间复杂度是指数级,无法应用在实际查询中。  本文主要研究概率图上的对象相似度计算。在可能世界模型下,本文首先给出了概率图上的期望SimRank定义。基于期望转移矩阵,期望SimRank的计算可以转换为确定图上SimRank的计算,因此期望SimRank计算的关键就是概率图上期望转移矩阵的计算。在期望转移矩阵的计算上,本文提出了子图划分方法,将大图划分为子图分而治之。在子图上,依次提出了完全二叉树算法CBT(Complete Binary Tree)算法、动态规划算法DP(Dynamic Programming)、增量动态规划算法IDP(Incremental Dynamic Programming),将算法时间复杂度从指数降为多项式。其中,IDP在所有算法中性能最优,并可适用于动态图的更新。最后,通过链接预测实验和性能对比实验,证明了期望SimRank衡量对象相似度的有效性,验证了所提出算法的高效性和可扩展性。
其他文献
缺陷报告是最重要的软件制品之一,它们记录着各个缺陷的详细信息,在软件的开发和维护过程中发挥着极其重要的作用。目前,软件开源社区基本都拥有自己的缺陷报告平台,用来提出、讨
物联网是世界信息产业发展的第三次浪潮,是各国政府和联盟组织关注的重点和亟待发展的科技前沿。无线传感器网络是构造物联网的子网络之一,为物联网提供了信息感知和无线通信等
ERP是当前国际上先进的企业管理模式。它可以对企业所拥有的财、物、人、信息、时间和空间等管理因素进行综合平衡和优化,面向全球化市场,协调企业的各个管理部门,围绕市场开展
为了提高互联网的服务质量,需要对一些占据大量带宽和流量的即时通讯应用进行流量识别,以便于网络管理。更为重要的是,即时通讯应用用户众多,信息量大,传播迅速。为了净化互联网环
1997年Phillips在q-整数的基础上引入了Bernstein多项式的一种推广,即q-Bernstein多项式算子。该算子引起了很多人从不同的角度研究。当q取1时,q-Bernstein多项式就是经典的Ber
Docker是容器虚拟化的主流技术和典型代表,它将应用及其依赖和运行环境打包为标准的、自包含的镜像(Docker Image)发布,通过创建容器实例(Docker Container)实现应用的快速交付
随着多核时代的到来,共享内存的多线程编程开始普及。多个线程在并发访问共享内存时会存在内存一致性问题。Java语言通过直接在语言层定义内存模型来解决该问题。Java内存模型
利用数据挖掘技术可以从海量数据中获取有价值的知识模式。广泛存在的软件源码作为一种特殊的数据形式,在其上应用数据挖掘技术进行源码形式的信息挖掘,已经成为一个新颖而重要
随着科学技术的发展和管理能力的提升,软件和服务都处在一个快速发展的黄金时期,但是这些变化带来了新的功能、方便和复杂性。随着系统复杂性的增长,用于开发系统的过程也随
无线传感器网络日益成为信息感知的重要手段之一,有着丰富的应用支撑和广阔的发展前景。为了对网络中的数据进行有效和高效的管理,一般将无线传感器网络建模为一个分布式数据库