引文作者的人名消歧方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:cc_7722
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章写作时经常要借鉴以往的文献,并且在文章的参考文献部分(Reference)列出借鉴过的文献,这些列出来的文献条目就叫做引文(Citation)。对于数字图书馆来说,如何有效利用这些引文条目,关系到数字图书馆的服务以及内容质量。其中一个值得研究的问题就是相似的名字却代表不同的人,需要人名消歧将它们区分开。另外,引文条目中能够用于消歧的内容很少,通常只包括共同作者,文章标题,发表刊物标题,因此给引文作者的人名消歧造成了一定的难度。本文将针对引文中的作者消歧问题进行研究。  本文针对三个字段—作者列表、文章标题、刊物标题分别进行引文分组和特征扩展以及相似度计算。首先根据作者列表中的相同的共同作者关系(除了需要消解的那个人名以外),把引文集合划分成聚类的基本簇。之后,对于文章标题使用维基百科扩展概念来解决文章标题的特征稀疏的问题,标题所对应的词条解释页面作为文章标题的代表性文本,计算不同引文间文章标题的相似度;对于刊物标题,通过搜集该刊物收录的文章标题作为刊物的代表性文本,计算不同引文间刊物标题的相似度。对于文章标题和刊物标题本文也使用了传统的未经扩展的方法来计算相似度。这些相似度组成了引文间的相似度向量。  然后,本文在引文间相似度向量和基本簇的基础上提出一种基于二元分类器和层次聚类的方法。首先,以引文间相似度向量作为特征,引文是否相同作为标签,训练一个支持向量机分类器。之后,用该分类器对不同基本簇内的两两引文的相似度向量进行分类,得出不同簇之间的关联度,之后使用层次聚类算法进行聚类,从而形成最终的引文分组结果,即人名消歧结果。  实验结果表明,本文所提出的引文作者消歧方法,由于对文章标题和刊物标题的文本进行扩展,一定程度克服了这两个超短文本的特征稀疏性,比参照方法取得了较大的提高。  
其他文献
虚假账号问题已经成为在线社会网络(OSN)面临的一个巨大的挑战,其创造的垃圾信息(同志、分享、留言、相册等)极大的影响了社会网络的服务质量。同时假账号的存在也对用户的隐私
多年来,尽管在减少虚拟化虚耗的问题上,业界有着不懈的努力,但是内存虚拟化的额外开销过大的问题对于某些应用程序仍然过于显著,而且至今还无法找到解决该问题的高效且低廉的方案
人脸表情识别在军用和民用领域有着广阔的应用前景,是目前的一个非常活跃的研究领域,其目的是让计算机等机器能够自动辨认出人脸表情。由于人脸表情的复杂和微妙等特性,因此会使
随着信息技术突飞猛进的发展和电脑的广泛普及,使得信息安全越来越受到人们重视。目前,针对信息的保护主要依赖于系统的安全和网络的安全。本文主要是针对系统中文件的安全进行
近年来,教育游戏己经开始应用于基础教育的各个学科之中,并取得了一定的成绩而在国内对教育游戏研究还处于起步阶段,教育游戏在学科教学中的应用也只限于数学英语历史等几门学科
随着信息技术的飞速发展,Internet已成为人们工作生活中不可缺少的重要部分。同时,Internet面临的安全形势严峻,尤其是以木马攻击为主的网络攻击行为危害日益严重,由此造成的经济
在以搜索引擎与社交网络为代表的互联网应用为我们带来大规模数据资源的今天,MapReduce系统作为一个同时具有高效性、便捷性、容错性等特点的分布式计算系统,越来越广泛地被应
在计算机视觉领域中,图像匹配的研究主要包括设计优异的图像特征描述方法和良好的匹配策略两个方面。提出健壮性较强的图像特征描述是获得其较高匹配准确度的有效策略,也是定义
随着信息技术的发展,仿真技术已广泛渗入到航空航天、军工制造、医疗卫生、金融、社会等各个领域,在诸如型号设计等高复杂性领域已成为不可或缺的重要支撑技术。在传统的仿真环
随着网络技术的快速发展,人们对信息系统的访问需求越来越强。网络系统的安全性成为了用户和开发者共同关注的问题。访问控制是通过某种途径显式地准许或限制访问能力及范围的