Top-k SimRank算法优化与其在科技文献检索中的应用

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:xeabor1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似科技文献检索在学术研究中占有十分重要的比重。随着科技文献数据的指数级增长,传统的基于文本内容的相似度检索方法在实际应用中遇到了精度与速度的瓶颈。近年来,研究焦点越来越多地转移到依据文献间关系的相似度检索,特别是基于图结构的相似文献检索。当前,一种有效的相似度检索方法就是首先构建以单篇文档为节点的文档网络图,然后利用网络节点相似度评价指标进行进一步分析研判。SimRank则为目前应用较广泛的网络节点相似度评价指标之一。本文研究了的SimRank算法的优化问题,并探索了SimRank的优化算法在科技文献检索中的应用。  SimRank的基本思想可以概括为两个节点的邻居越相似,这两个节点越相似;即两个节点的相似度由其邻居节点的相似度决定。然而,目前SimRank的计算方式时间和空间开销巨大,在实际应用中表现并不出色。目前主流的算法主要是基于SimRank的矩阵迭代形式,该方法以整个文档网络为输入进行迭代,每次迭代需要更新全局网络的所有点对。一方面,其时空开销巨大,可扩展性不好,实际应用效果不理想;另一方面,实际应用仅关心相似度较高的文献对,而其计算结果为整个网络所有文献对的相似度,结果利用率十分低。针对此问题,本文依据SimRank的随机游走模型设计了一种Top-kSimRank算法框架,旨在及时排除相似度较低的点对,快速和精确地计算出相似度较高的点对,并使用实际数据测试其应用效果。  首先,本文依据SimRank的随机游走模型,设计了SimRank的增量算法。增量算法的依据是SimRank与从点对出发的两条随机路径随机游走的首次相遇概率的等价关系。增量算法的优点在于其每次迭代过程不需要重新计算,仅在上次迭代结果上继续增加此次迭代相似度值,使得结果非递减,十分适合阈值与非候选点的判定。其次,本文根据增量算法,设计了SimRank的迭代删点框架,该框架可快速识别非候选点并删除,以节约时空开销。在该框架下,本文定义了“超点”的概念,并设计了与基于超点的上界作为删点的依据。与已有的基于等比数列求和的上界相对比,本文设计的基于超点的上界考虑了点在网络中的临接关系,能够提供精度更高的上界,而且计算时空开销很小。本文还在迭代删点框架下设计了基于超点的上界的使用方法,可以在不必完全算出基于超点上界的情况下提早删除部分非候选点,更有效地节约了时间成本,且进一步压缩了空间开销。最后,考虑到现实中海量数据的问题,本文综合了基于等比数列求和的上界与基于超点的上界设计了针对大网络的算法优化策略。  为了进一步评价所提技术的实际效用和意义,本文利用真实数据开展了应用研究。对于已有的文献数据,以单篇文档为节点,文档间引用关系为边建立文档网络图。利用本文所提技术进行文档相似度检索,实验结果表明本文所提技术时间和空间开销均较小,符合实际应用需求。
其他文献
本研究基于中国高技术产业2001~2014年下属各子行业面板数据,采用固定效应最小二乘虚拟变量模型(LSDV)和分布滞后模型等方法,研究了研发投入、专利产出与创新绩效和盈利能力之间
【关键词】多媒体 语文教学 直观性  小学生的抽象思维还不太发达,学习语文枯燥无味,直接影响学生学习的积极性和主动性。随着计算机网络的飞速发展,现代多媒体技术已越来越多地走进小学语文课堂。教师教学时利用多媒体技术对文本进行综合处理,设计出符合教学需要的课件,满足了学生个性发展的需要,有效地促进了课堂教学。下面我就谈谈多媒体在小学语文教学中的应用。  一、小学语文教学中多媒体教学的基本步骤  1.熟
语文课程改革给我们的阅读教学注入了鲜活的生命力,呈现出百花齐放,精彩纷呈的局面。随着一堂堂“千锤万炼”的公开课不断出台,阅读教学越来越成“乱花迷眼”之势。一堂课又是图
“广西高校服务广西新发展计划”是广西启动的一项服务行动。文章在此背景下,结合广西电大的特点,就广西电大如何在广西高等教育布局中定好位,找准为服务广西新发展的落脚点
随着我国课程改革的深入,小学生的体育课越来越失去了原有的意义,体育教师的守旧,家长的担心,学校领导的安全教育,使得体育课变得以安全第一的指导原则,虽然是课程改革提倡的是淡化竞技技能的教授,但落实的基层,则变成了剔除了所有危险性的动作技能,以游戏代替了技能的教学。按照发展的原则来说,其实这也未尝不好,只要我们的体育教师能够不断的把游戏进行创新和游戏规则加以修改,使得孩子们通过游戏学会了一些基本的技能
信息化是当今世界经济和社会发展的大趋势,以网络技术和多媒体技术为核心的信息技术已成为拓展人类能力的创造性工具。近年来,电教媒体在课堂教学中的应用越来越多地受到教师的重视。电教媒体形象、直观、大容量的特点使课堂教学变得生动活泼、丰富多彩,充分调动了学生的学习兴趣,加强了学习的积极性,切实提高了教育教学质量。  一、英语电化教学中媒体技术的发展及应用  我国英语电化教学从起步至今已十几年,中学英语电化
随着我国社会经济的不断发展,通讯技术也在快速的发展,智能化的电网建设工作已经全面的开展。本文主要对智能化变电站的建设进行了论述,经过对智能变电站建设过程的技术进行分析
“三个代表”的重要思想,是我们党的立党之本、执政之基、力量之源。我们党80年的奋斗历史证明:中国共产党和她领导下的共产党人必须始终坚持实 The important thinking of
随着社会的发展,人民的生活水平日益提高,对自身所处的环境安全提出了更高的要求.针对直接关系人们身体健康和影响生命安全的PM2.5浓度、甲醛浓度、烟雾、温湿度等环境参数进
诗与画作为两种不同的艺术表现形式,其关系成为文艺美学中的一个重要议题。本文意在讨论诗、画作为时间和空间艺术的表现形式如何在中国的诗画中得到交融,以及这种融合所折射