论文部分内容阅读
指代是自然语言的常见语言现象,也是语篇衔接的重要手段之一。使用指示代词可以让语篇表述不累赘,简明清晰。指示代词的消解有助于机器分析和理解篇章,并在自动文摘、信息抽取、问答系统和机器翻译等多个自然语言处理领域有着广泛运用。随着篇章处理相关应用的日益发展,指代消解显示出前所未有的重要性,并成为自然语言处理中热门的研究问题。本文介绍了指代消解在自然语言处理领域的应用意义,对国内外指代消解的理论研究和实现技术进行了总结。本文针对宾州树库的特点,实现了一种基于特征提取及加权的指代消解的方法,同时也实现了一种基于机器学习的指代消解方法。特征提取是本文的主要内容,人称代词与候选先行词的特征提取是创建先行词候选集的重要条件,本文中通过提取人称代词与候选先行词的指人、性别和单复数特征来过滤候选先行词以创建先行词候选集。而人称代词与先行词候选集中的候选先行词组成的候选对的特征提取则是在候选集中选择先行词的唯一条件。本文中提取了各个候选对的8个特征,然后对这些特征进行加权得到一个匹配权值,先行词则是组成具有最高匹配权值的候选对的词。词语搭配作为一种特殊的语言现象,组成搭配的词语互相存在着暗示。在本文中搭配被用来提取词语的语义信息,同时统计信息也可以从搭配中获取。搭配对于特征提取有着重要的意义。支持向量机(SVM)作为一种机器学习算法,能够从有限的特征中最大限度的提取分类信息来进行分类。在本文中指代消解被转化为一种特殊的分类问题,即对于每个人称代词来说,它与候选先行词组成的候选对中只有1个候选对能被分为同指类,而其他的候选对要被分为非同指类。在本文中,基于SVM的指代消解使用SVMLight工具进行分类。分类时使用加权消解方法时提取的特征,然后从SVMLight分类的中间结果中提取消解结果。基于使用搭配改进的特征提取,在宾州树库的全部语料中普通加权的方法得到了86.37%,而在经过挑选的语料中基于SVM的方法得到了超过90%的正确率。而基于搭配的特征提取的使用对于整个系统的性能都有超过10%的提高。实验证明,本文中采取的方法对指代消解存在重要的价值。