引文作者的人名消歧方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：cc_7722

【摘要】

：

文章写作时经常要借鉴以往的文献，并且在文章的参考文献部分(Reference)列出借鉴过的文献，这些列出来的文献条目就叫做引文(Citation)。对于数字图书馆来说，如何有效利用这些引

【作者】

：

祁茜茜

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2013年期

【关键词】

：

人名消歧引文作者层次聚类数字图书馆相似度向量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文章写作时经常要借鉴以往的文献，并且在文章的参考文献部分(Reference)列出借鉴过的文献，这些列出来的文献条目就叫做引文(Citation)。对于数字图书馆来说，如何有效利用这些引文条目，关系到数字图书馆的服务以及内容质量。其中一个值得研究的问题就是相似的名字却代表不同的人，需要人名消歧将它们区分开。另外，引文条目中能够用于消歧的内容很少，通常只包括共同作者，文章标题，发表刊物标题，因此给引文作者的人名消歧造成了一定的难度。本文将针对引文中的作者消歧问题进行研究。　　本文针对三个字段—作者列表、文章标题、刊物标题分别进行引文分组和特征扩展以及相似度计算。首先根据作者列表中的相同的共同作者关系（除了需要消解的那个人名以外），把引文集合划分成聚类的基本簇。之后，对于文章标题使用维基百科扩展概念来解决文章标题的特征稀疏的问题，标题所对应的词条解释页面作为文章标题的代表性文本，计算不同引文间文章标题的相似度;对于刊物标题，通过搜集该刊物收录的文章标题作为刊物的代表性文本，计算不同引文间刊物标题的相似度。对于文章标题和刊物标题本文也使用了传统的未经扩展的方法来计算相似度。这些相似度组成了引文间的相似度向量。　　然后，本文在引文间相似度向量和基本簇的基础上提出一种基于二元分类器和层次聚类的方法。首先，以引文间相似度向量作为特征，引文是否相同作为标签，训练一个支持向量机分类器。之后，用该分类器对不同基本簇内的两两引文的相似度向量进行分类，得出不同簇之间的关联度，之后使用层次聚类算法进行聚类，从而形成最终的引文分组结果，即人名消歧结果。　　实验结果表明，本文所提出的引文作者消歧方法，由于对文章标题和刊物标题的文本进行扩展，一定程度克服了这两个超短文本的特征稀疏性，比参照方法取得了较大的提高。　　

其他文献

VoteTrust:基于好友申请图的社会网络虚假用户检测系统

虚假账号问题已经成为在线社会网络(OSN)面临的一个巨大的挑战，其创造的垃圾信息（同志、分享、留言、相册等）极大的影响了社会网络的服务质量。同时假账号的存在也对用户的隐私

学位

VoteTrust在线社会网络假账号攻击链接分析虚假用户检测垃圾账号

一种内存虚拟化优化方案

多年来，尽管在减少虚拟化虚耗的问题上，业界有着不懈的努力，但是内存虚拟化的额外开销过大的问题对于某些应用程序仍然过于显著，而且至今还无法找到解决该问题的高效且低廉的方案

学位

内存虚拟化内存管理优化方案应用程序影子页表硬件辅助页表

基于典型相关分析的人脸表情识别方法研究

人脸表情识别在军用和民用领域有着广阔的应用前景，是目前的一个非常活跃的研究领域，其目的是让计算机等机器能够自动辨认出人脸表情。由于人脸表情的复杂和微妙等特性，因此会使

学位

人脸表情识别典型相关分析协方差矩阵稀疏权值自适应权值

可信加密磁盘的设计与应用

随着信息技术突飞猛进的发展和电脑的广泛普及，使得信息安全越来越受到人们重视。目前，针对信息的保护主要依赖于系统的安全和网络的安全。本文主要是针对系统中文件的安全进行

学位

虚拟磁盘透明加解密USBKey可信计算

应急虚拟训练游戏引擎关键技术的研究与实现

近年来，教育游戏己经开始应用于基础教育的各个学科之中，并取得了一定的成绩而在国内对教育游戏研究还处于起步阶段，教育游戏在学科教学中的应用也只限于数学英语历史等几门学科

学位

游戏引擎场景建模编辑

基于行为分析的木马攻击检测系统研究与实现

随着信息技术的飞速发展，Internet已成为人们工作生活中不可缺少的重要部分。同时，Internet面临的安全形势严峻，尤其是以木马攻击为主的网络攻击行为危害日益严重，由此造成的经济

学位

木马行为分析告警聚类序列识别木马攻击检测可信度分析数据挖掘

面向作业组的MapReduce系统设计与实现

在以搜索引擎与社交网络为代表的互联网应用为我们带来大规模数据资源的今天，MapReduce系统作为一个同时具有高效性、便捷性、容错性等特点的分布式计算系统，越来越广泛地被应

学位

作业组应用MapReduce系统数据倾斜区间划分作业调度并行化

图像匹配的多阶特征线性分配模型研究

在计算机视觉领域中，图像匹配的研究主要包括设计优异的图像特征描述方法和良好的匹配策略两个方面。提出健壮性较强的图像特征描述是获得其较高匹配准确度的有效策略，也是定义

学位

图像匹配多阶特征最优化匹配模型机器学习目标函数最优化Bundle Methods正则风险最小化

一种支持故障注入的Petri网仿真建模方法研究与应用

随着信息技术的发展，仿真技术已广泛渗入到航空航天、军工制造、医疗卫生、金融、社会等各个领域，在诸如型号设计等高复杂性领域已成为不可或缺的重要支撑技术。在传统的仿真环

学位

仿真建模Petri网故障注入变异算子系统可靠性

一种改进的模糊访问控制模型

随着网络技术的快速发展，人们对信息系统的访问需求越来越强。网络系统的安全性成为了用户和开发者共同关注的问题。访问控制是通过某种途径显式地准许或限制访问能力及范围的

学位

访问控制使用控制模型模糊集网络安全

引文作者的人名消歧方法研究

其他学术论文