论文部分内容阅读
句法分析是自然语言处理中的一个关键性问题。句法分析是语义分析、机器翻译、信息抽取等许多自然语言处理任务的基础,这些任务的最终效果依赖于句法分析的准确率。自然语言中句法分析研究的是句子中词或者短语在句子中起到的作用和相互之间的关系,分析的最终结果往往以树的形式表示,对句法分析的研究有着重要的理论和实用价值。相对于英语的句法分析,汉语句法分析起步较晚,加之用于实验的己标注树库资源的匮乏,其发展较英语句法分析也相对落后。目前汉语句法分析的技术还远不能满足各种信息处理系统的需求,所以对汉语句法分析的研究有着迫切的现实需求。
歧义问题也是自然语言处理中常见的研究热点,汉语中的歧义结构有很多,几乎每一种短语结构都是存在歧义的,本论文主要从宾州汉语树库CTB5.1统计出常见歧义结构进行研究。自然语言处理中要解决的歧义问题,是子句字符串的字面形式与实际意义之间的矛盾,同一个字面形式可能对应多个不同的解释意义,在本论文中,对于歧义结构的不同意义,使用句法分析的树结构来表达出不同的意义解释。歧义的存在往往影响自然语言处理任务的最后效果,成为自然语言处理的巨大障碍。因此,深入研究汉语中常见歧义结构的消除排解方法对汉语句法分析甚至自然语言处理都具有重要的作用。
本论文的研究重点有三部分,一部分是使用基于超图的K-best汉语句法分析模型产生包含k个侯选树的分析树集合;一部分用引入树核的投票感知机方法对K个侯选树进行重排序;最后一部分是使用机器学习的方法对汉语中常见歧义结构进行歧义消解,并通过将歧义结构的歧义消解工作引入到K-best模型的重排序过程中从而最终提升句法分析的效果。本论文在汉语句法分析的工作中,将基于概率上下文无关文法的汉语句法分析分为K-best基础模型和重排序两个阶段,第一阶段使用基于PCFG的CKY算法,在性能的提升上引入了超图的思想,提高了分析的效率;第二个阶段为对第一阶段产生的多重结果的重排序技术,本论文所介绍的重排序技术有三个特色:一是实现排序问题到分类问题的转化并通过改进的投票感知机算法实现重排序;二是引入树核方法到汉语句法分析中,并对树核做了区别对待产生式规则,引入聚合产生式规则和引入λ参数的三个改进;三是引入汉语常见歧义结构的统计消解方法到重排序任务中,有效地提高了重排序的效率和效果。
在常见歧义结构的歧义消解方面,本论文通过对宾州中文树库(CTB)5.1进行统计分析,识别出常见歧义结构,对常见歧义结构的内部词汇化和上下文结构信息进行研究分析,创建相应的特征模板,对歧义结构对应的字串在分析树中的子树结构的前后相邻结构进行获取特征,从而获取歧义结构的上下文信息进行歧义消解。在汉语句法分析的第二阶段,在对侯选树集合进行重排序时,识别出侯选树中的常见歧义结构,利用歧义结构的消解信息对侯选树集合进行重排序,从而提升汉语句法分析的效果。