论文部分内容阅读
在自然语言处理(NLP)中,词义消歧(WSD)一直是研究的重点和难点。它是一项“中间任务”,对于自然语言处理中的许多应用领域具有重要的理论和实践意义,包括机器翻译、信息检索、句法分析、语音合成等,该问题解决的好坏将直接关系到这些应用问题的效果优劣。 本文主要是在研究获取支持词义消歧知识的方法基础上,建立了一个面向汉语真实文本中实词的词义消歧系统。论文主要从以下几个方面作了重点研究和创新: 首先,对国内外WSD研究现状进行了介绍,重点说明了本课题研究的对象及目的。论文主要着眼于对汉语真实文本中实词(包括名词、动词和形容词)的词义消歧。 其次,详细分析了汉语歧义词的分类及特点,并探讨了语义知识在WSD中的作用。结合本课题实现目标,挖掘在线资源—《知网》(2000)和《现代汉语辞海》中提供的信息,获取词义消歧语义资源,共构建了三个知识库,分别为:动态优先组合库、词库(分为多义词词库和单义词词库)和筛选库。 再次,设计并实现WSD系统,并给出一个消歧模型。消歧模型主要包括五大模块的实现,分别为:预处理模块;相似度计算模块;相关度计算模块;中间词义消歧模块;知识库管理模块。预处理模块主要是通过词性标注器和词性过滤器将文本中隐含的多义词标识出来,剔除了伪多义词,解决了部分兼类词消歧问题。中间词义消歧模块是本系统的核心,主要分为两大模块:相似度计算模块和相关度计算模块。其中,词语相似度的计算主要是利用了《知网》中义原关系层次网络中的上下位关系。在相关度的计算中,主要是抽取《知网》中义原之间的四种隐含关系,建立公式来计算词语之间的相关度和词语与其上下文之间的相关度。知识库管理模块主要是对构建的三个知识库进行查询与更新管理。在系统的实现过程中,给出一个实例来说明和验证本系统的词义消歧过程。 最后,给出了本系统的评测结果。以1998年《人民日报》作为评测语料,语料涉及到政治、经济、科技、农业等几个方面。评测结果表明,本文的消歧系