命名实体语义消歧方法的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:birchwoods2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧(WSD)技术是计算机根据文本距离、上下文语境等特征来自动获取并确认词语的意义。词义歧义是指一词多义,即一个词在不同的上下文中有不同的词义,也称为歧义词。而词义消歧的目标就是确定文本中的歧义词的确切含义。词义消歧一直是计算语言学领域基础性关键性的研究课题。作为一个中间任务,消歧直接关系到文本分类、信息检索、机器翻译、语音识别自然等语言处理系统的效果和效率。20世纪90年代以来,随着语料库的兴起,基于语料库的词义消歧技术占主导地位。其中大部分工作是人们通过对语料库进行的有监督或者无监督学习来达到消歧目的。由于有监督词义消歧需要对训练语料库进行词义的人工标注,较为费时和费力,因此无监督学习方法是目前的主流。而命名实体歧义指的是一个命名实体指称项可对应到多个真实世界实体(或称实体概念)的问题。命名实体消歧任务与普通的词义消歧任务有很多相似之处,但是有其自身的难点:命名实体消歧目标难以确定、指称项多样性、指称项歧义性。命名实体消歧任务分为单语种命名实体消歧与多语种命名实体消歧。单语种命名实体消歧在国内外均有很长时间的研究。而多语种命名实体消歧,特别是基于维基百科的多语种命名实体消歧,在当前研究也是刚刚起步,已有的方法较单语种命名实体消歧相比更为复杂,效果也离令人满意有着比较遥远的距离。因此,这是一个非常有价值的研究方向。本文通过维基百科官方接口,获取了中英文维基百科数据备份,在本地使用MySQL生成了维基百科数据库。在算法方面,本文利用三个特征项:文本相似度、实体关联度及类别关联度对待消歧文本进行评分。并且为了解决中文维基百科知识库不足的问题,使用英文维基百科对其进行扩充。在介绍了方法之后,本文使用第二届CLP-SIGHAN中文处理国际会议(CLP-2012)提供的中文人名消歧测试语料及网络上下载的新闻语料对本文的算法进行实验和分析,实验结果较为优秀。结果表明,本文的方法在命名实体消歧方面是可行且有效的。
其他文献
本课题所研究的产品设计协同平台是一个多Agent支持的分布式软件系统,可以用其进行产品的初步设计以及产品数据管理。本课题详细研究了Agent理论模型,首先介绍了软件Agent的定
集合论的提出及发展大大促进了计算机应用技术的创新,尤其,近些年来迅速发展起来的Rough集理论,对于处理不确定、不精确、模糊信息提供了良好的解决方法,加快了人工智能技术的发
可视媒体主要包括图像和视频,具有直观、生动、有趣等特点,与文字相比能更加有效地向人们传达信息。在过去,传统的可视媒体来源有手工绘画、印刷等,载体有纸、胶片等。由于传统可
P2P结构具有鲁棒性、分散性、负载平衡和可扩展性等特点,是下一代互联网技术发展方向之一,在文件共享和分布式计算领域倍受关注。随着Internet的发展,基于局域网的传统分布式数
办公自动化(OA:office automation)是一个需求变化很快的领域。使用传统技术开发的OA系统质量差、难维护、可靠性低、可扩展性差,基于构件的软件开发(CBSD:Component Based Soft
软件缺陷的多少直接反映了整个软件质量的好坏,每一个软件中的缺陷都必须得到妥善的处理,可靠的基于软件仓库的缺陷预测则在软件缺陷的发现和移除中起着至关重要的作用。首先,它
事务处理技术是保证信息一致性和可靠性的关键技术。传统的事务处理技术主要应用于集中式或分布式数据库系统,具有原子性、持久性、一致性和隔离性的特点。近年来,随着移动通信
随着互联网应用的发展,网络安全日益重要。入侵检测系统(IDS)作为和防火墙、加密系统并列的一种安全手段得到了很大的发展。入侵检测技术作为一种主动地安全防护技术,及时地检
随着计算机网络的普及,越来越多的资源以数字形式在网络上传播,随之而来的是日益严重的盗版问题。保护版权所有者的利益,使得数字作品发行能够持续健康地发展是一个亟需解决的问
移动自助服务系统作为一种新型的服务方式,其出现能帮助移动 运营商解决用户群体日益增大与传统营业厅、代办点服务能力不足之 间的矛盾。本文针对如何建设适合国内移动通信