论文部分内容阅读
姓名消歧指的是消除多文档中的人名歧义性,把相同的人名按照现实世界的不同实体进行区分。姓名歧义是导致搜索引擎以及文献数据库中人物检索效果较差的原因,用户需要花费大量时间从重名人物中筛选出自己感兴趣的人物信息。同时姓名消歧也是构建合著者社会网络、研究者学术评价等科研活动的基础性工作,在数据挖掘、自然语言处理等领域具有广泛的应用。本文通过对国内外姓名消歧的研究现状进行归纳和总结,分析了各方法在实际应用中的优缺点,针对信息大爆炸的数字化时代,许多方法耗时多、不支持增量消歧以及面临“多维度灾难”的问题,提出了基于语义指纹的姓名消歧方法。 首先,设计了基于语义指纹的文献著者姓名消歧实施方案。该方案首先利用SimHash生成文本语义指纹,构建指纹库。将全文相似度计算转化为语义指纹的比较,整个过程不涉及原文本的两两比较,且语义指纹具有处理速度快、占用空间小,是一种有效的降维算法。不仅如此,对于新增的文献本文采用动态建立作者指纹库的方法,而传统的方法只关注了对库中已有的文献姓名消歧。第二,有效地融合作者的合著者特征、机构特征和全文的语义指纹特征设计了综合特征比较器,进而进行同一作者的文献识别。第三,根据综合特征的比较结果设置合理的阈值进行认领决策、作品指派,考虑到一篇论文可能被多名作者认领,并添加了争议仲裁。 然后,客观选取了有代表性的部分作者的文献数据,构建实验数据集,首先对合著者单特征、作者单位单特征和语义指纹单特征进行独立特征姓名消歧能力判断和参数确定实验,为改进综合特征姓名消歧效果具有很强的指导意义;根据独立特征消歧能力的强弱以及各个单特征的优势,设计综合特征姓名消歧策略并进行实验验证。 最后,选取准确率、召回率和F值对独立特征姓名消歧和综合特征姓名消歧实验结果进行评价。实验结果表明合著者单特征和机构单特征具有较高的准确率和较低的召回率,而相对而言语义指纹单特征具有较高的召回率和较低的准确率,所以本研究采用基于语义指纹的综合特征姓名消歧方法,实现了优势互补,弥补了各自方法的不足,获得了较高的准确率和召回率,结果表明该方法的F值达到76%。