论文部分内容阅读
文章写作时经常要借鉴以往的文献,并且在文章的参考文献部分(Reference)列出借鉴过的文献,这些列出来的文献条目就叫做引文(Citation)。对于数字图书馆来说,如何有效利用这些引文条目,关系到数字图书馆的服务以及内容质量。其中一个值得研究的问题就是相似的名字却代表不同的人,需要人名消歧将它们区分开。另外,引文条目中能够用于消歧的内容很少,通常只包括共同作者,文章标题,发表刊物标题,因此给引文作者的人名消歧造成了一定的难度。本文将针对引文中的作者消歧问题进行研究。 本文针对三个字段—作者列表、文章标题、刊物标题分别进行引文分组和特征扩展以及相似度计算。首先根据作者列表中的相同的共同作者关系(除了需要消解的那个人名以外),把引文集合划分成聚类的基本簇。之后,对于文章标题使用维基百科扩展概念来解决文章标题的特征稀疏的问题,标题所对应的词条解释页面作为文章标题的代表性文本,计算不同引文间文章标题的相似度;对于刊物标题,通过搜集该刊物收录的文章标题作为刊物的代表性文本,计算不同引文间刊物标题的相似度。对于文章标题和刊物标题本文也使用了传统的未经扩展的方法来计算相似度。这些相似度组成了引文间的相似度向量。 然后,本文在引文间相似度向量和基本簇的基础上提出一种基于二元分类器和层次聚类的方法。首先,以引文间相似度向量作为特征,引文是否相同作为标签,训练一个支持向量机分类器。之后,用该分类器对不同基本簇内的两两引文的相似度向量进行分类,得出不同簇之间的关联度,之后使用层次聚类算法进行聚类,从而形成最终的引文分组结果,即人名消歧结果。 实验结果表明,本文所提出的引文作者消歧方法,由于对文章标题和刊物标题的文本进行扩展,一定程度克服了这两个超短文本的特征稀疏性,比参照方法取得了较大的提高。