论文部分内容阅读
随着计算机和人工智能科学的发展,人们普遍希望计算机能够理解自然语言,即人类的语言,以帮助人们解决许多问题。例如语言分析、机器翻译、信息检索、文本分类等。自然语言处理的目标是实现语义理解,而多义词词义消歧是不可避免的过程。
词义消歧一直是自然语言处理的非常基础和重要的问题。该问题的解决直接影响到自然语言处理中诸多问题的顺利解决。然而基于词义标注的有监督的词义消歧方法虽然使词义消歧问题的解决有了很大的进步,但是这种方法需要大规模的词义标注语料库,而词义语料库的研制需要相当大的资源的支持。因此,本文提出一种基于语言知识库的无导的词义消歧方法。该方法只需要使用有限的语言知识库(本文使用了北大计算语言所研制的语义词典(200706版)和中文概念词典(2008版)),结合向量空间模型,通过计算多义词的上下文与多义词各义项的相关度实现词义消歧。
本文提出的多义词词义消歧方法过程如下:
(1)预处理。在进行多义词词义消歧之前,必须先对文本进行分词和词性标注。
(2)多义词范围的确定和词义初步消歧。本文从北京大学计算语言研究所研发的语义词典(SKCC)中确定多义词的范围,并且根据词性,在词性标注的基础上进行初步消歧。
(3)上下文范围大小的确定。本文基于信息增益的方法确定了上下文窗口的大小,以保证既能获得词义消歧所需要的语言信息,同时不至于产生过多的噪音和过高的计算复杂度。
(4)计算多义词上下文和各个词义的相似度。本文通过把多义词上下文映射成一个向量,同时把多义词每个义项也映射成一个向量,通过计算这两个向量的相似度来确定当前上下文中多义词的词义。
(5)使用基于概念相似度的方法对前一步的消歧结果进行校正。
本文根据相关文献的方法,从SKCC中共得到多义词3363个,其中有907个多义词是可以完全通过词性进行区分的,223个多义词是可以部分区分的。本文基于北京大学计算语言研究所研制的2000年《人民日报》一年的语料,运用信息增益方法计算确定多义词上下文窗口的大小,通过实验发现上下文窗口为6是比较合适的。通过对8个多义词消歧的实验表明,本文提出的方法是有效的,并且平均正确确率达到63.65%。