论文部分内容阅读
词义消歧(WSD)技术是计算机根据文本距离、上下文语境等特征来自动获取并确认词语的意义。词义歧义是指一词多义,即一个词在不同的上下文中有不同的词义,也称为歧义词。而词义消歧的目标就是确定文本中的歧义词的确切含义。词义消歧一直是计算语言学领域基础性关键性的研究课题。作为一个中间任务,消歧直接关系到文本分类、信息检索、机器翻译、语音识别自然等语言处理系统的效果和效率。20世纪90年代以来,随着语料库的兴起,基于语料库的词义消歧技术占主导地位。其中大部分工作是人们通过对语料库进行的有监督或者无监督学习来达到消歧目的。由于有监督词义消歧需要对训练语料库进行词义的人工标注,较为费时和费力,因此无监督学习方法是目前的主流。而命名实体歧义指的是一个命名实体指称项可对应到多个真实世界实体(或称实体概念)的问题。命名实体消歧任务与普通的词义消歧任务有很多相似之处,但是有其自身的难点:命名实体消歧目标难以确定、指称项多样性、指称项歧义性。命名实体消歧任务分为单语种命名实体消歧与多语种命名实体消歧。单语种命名实体消歧在国内外均有很长时间的研究。而多语种命名实体消歧,特别是基于维基百科的多语种命名实体消歧,在当前研究也是刚刚起步,已有的方法较单语种命名实体消歧相比更为复杂,效果也离令人满意有着比较遥远的距离。因此,这是一个非常有价值的研究方向。本文通过维基百科官方接口,获取了中英文维基百科数据备份,在本地使用MySQL生成了维基百科数据库。在算法方面,本文利用三个特征项:文本相似度、实体关联度及类别关联度对待消歧文本进行评分。并且为了解决中文维基百科知识库不足的问题,使用英文维基百科对其进行扩充。在介绍了方法之后,本文使用第二届CLP-SIGHAN中文处理国际会议(CLP-2012)提供的中文人名消歧测试语料及网络上下载的新闻语料对本文的算法进行实验和分析,实验结果较为优秀。结果表明,本文的方法在命名实体消歧方面是可行且有效的。