基于语义指纹的中文文献著者姓名消歧方法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:askkwr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
姓名消歧指的是消除多文档中的人名歧义性,把相同的人名按照现实世界的不同实体进行区分。姓名歧义是导致搜索引擎以及文献数据库中人物检索效果较差的原因,用户需要花费大量时间从重名人物中筛选出自己感兴趣的人物信息。同时姓名消歧也是构建合著者社会网络、研究者学术评价等科研活动的基础性工作,在数据挖掘、自然语言处理等领域具有广泛的应用。本文通过对国内外姓名消歧的研究现状进行归纳和总结,分析了各方法在实际应用中的优缺点,针对信息大爆炸的数字化时代,许多方法耗时多、不支持增量消歧以及面临“多维度灾难”的问题,提出了基于语义指纹的姓名消歧方法。  首先,设计了基于语义指纹的文献著者姓名消歧实施方案。该方案首先利用SimHash生成文本语义指纹,构建指纹库。将全文相似度计算转化为语义指纹的比较,整个过程不涉及原文本的两两比较,且语义指纹具有处理速度快、占用空间小,是一种有效的降维算法。不仅如此,对于新增的文献本文采用动态建立作者指纹库的方法,而传统的方法只关注了对库中已有的文献姓名消歧。第二,有效地融合作者的合著者特征、机构特征和全文的语义指纹特征设计了综合特征比较器,进而进行同一作者的文献识别。第三,根据综合特征的比较结果设置合理的阈值进行认领决策、作品指派,考虑到一篇论文可能被多名作者认领,并添加了争议仲裁。  然后,客观选取了有代表性的部分作者的文献数据,构建实验数据集,首先对合著者单特征、作者单位单特征和语义指纹单特征进行独立特征姓名消歧能力判断和参数确定实验,为改进综合特征姓名消歧效果具有很强的指导意义;根据独立特征消歧能力的强弱以及各个单特征的优势,设计综合特征姓名消歧策略并进行实验验证。  最后,选取准确率、召回率和F值对独立特征姓名消歧和综合特征姓名消歧实验结果进行评价。实验结果表明合著者单特征和机构单特征具有较高的准确率和较低的召回率,而相对而言语义指纹单特征具有较高的召回率和较低的准确率,所以本研究采用基于语义指纹的综合特征姓名消歧方法,实现了优势互补,弥补了各自方法的不足,获得了较高的准确率和召回率,结果表明该方法的F值达到76%。
其他文献
随着多媒体资源类型和数量不断增长,多媒体日益成为图书馆馆藏的一个重要组成部分,对描述多媒体资源的元数据规范也提出了更高的要求。  本文选择多媒体资源的元数据规范为研
那些孩子,在空中欢快地翻腾,他们像春笋那样,从土里长出来,自由自在徜徉于天地之间。从照片中,你似乎也看到了人的生老病死、子子孙孙的轮回。“摄影就是上帝给你的礼物,作为
期刊
随着计算机的发展和大数据时代的悄然来临,从大量的、有噪音的数据中抽取出代表未来学科发展方向的新兴主题成为各级政府及科技政策制定者关注的问题。与此同时,根据前沿发展方
现在回想起来,我这阵子碰到的所有倒霉事,似乎都是由那张贺卡引起的。卡是一张生日卡,已经发黄的软纸板上印着一个穿着红袄绿裤的大头娃娃。这玩意儿大概已经在库房里压了二
期刊
一到第三个议项了。再要十几分钟,这桩磨人而不愉快的事情就结束了。卢仝突然站起来发难。矛头直接指向我,把半年前的电话晒了出来。电话涉及他人。卢仝把自己的牢骚隐去,只
期刊
本文选取国内外广泛应用的10个期刊评价体系作为研究对象,重点对国内外主要期刊评价体系相关的原始资料进行体系和指标两个层次不同属性的归类和梳理,从体系层面和指标层面两个
[目的/意义]教育资源的网上公开,有助于促进知识的广泛传播与成果的开放共享.以教育资源中的课件资源为研究内容,分析我国研究人员对课件资源网上公开会遭受商业目的使用、知
开放获取是在网络环境中发展起来的新型学术交流理念和交流机制,开放获取期刊作为开放获取的实现模式之一是促进学术交流的有效途径。相对于传统期刊而言,开放获取期刊的基本特
[目的/意义]图书馆用户参与数字馆藏建设模式应用过程中急需解决的问题是通过建立完善适用的激励机制来吸引用户积极参与。[方法/过程]根据马斯洛需求层次理论,参考国内外相
开篇rn一听说我在医院工作,新认识的朋友便马上举起手机,或者转身找纸、笔,记录联系方式.他们一脸兴奋,感叹总算在医院有了熟人.可我若说自己是在“男科医院”,他们笑容的甜
期刊