论文部分内容阅读
基本名词短语(base noun phrase,base NP)识别是自然语言处理领域中一项重要的基础性研究课题,其目的是从文本中提取简单、非嵌套的名词短语,不含有其他子名词短语。Base NP含有丰富的句法和语义信息,base NP识别的结果可服务于信息检索、机器翻译等诸多自然语言处理任务,并且base NP识别是典型的分类问题和序列标注问题,机器学习方法是处理这一问题的重要手段,从事这一问题的研究可以进一步推动机器学习方法的研究,因此,这项研究具有较大的应用价值和理论意义。
本文的工作重点是利用组合分类器研究base NP识别的新方法,主要工作归纳如下:
(1)在宾州汉语树库(5.0版)的基础上建立中文base NP语料库,并从英文语法分析语料中提取更大规模的英文语料。
(2)结合规则和初级分类器概率信息的组合分类器方法,构造汉语base NP分析器。
初级分类器选择支持向量机(support vector machine,SVM)和条件随机场(conditional random fields,CRF),为了从两者比较的不同结果中发掘出正确结果,笔者针对汉语base NP的语法结构特点制定了有效的规则,并且考虑CRF模型提供的后验概率信息,消除初级分类器中的歧义和错误。通过利用不同规模的语料测试,该方法提高了系统的整体识别结果。
(3)采用一种新的错误驱动的组合分类器方法实现汉语base NP识别。
在对比两种不同类型的分类器—基于转换的方法(TBL)和CRF分类结果的基础上,再利用SVM学习其中的错误规律,对两种分类器产生的不同结果进行纠错,从而达到提高系统整体性能的目的。通过在base NP语料集上进行汉语base NP识别交叉验证的实验,这种方法与单独使用TBL、CRF和SVM方法相比较,实验结果都有所提高,F值达到89.72%,相对于文中提到的其他方法,最大提高值达2.35%。
(4)研究基于多种融合算法的组合分类器在base NP识别中的理论可行性和实际效果。
在融合算法中,我们充分利用分类器提供的概率信息,并且设计不同特征集上的分类器。汉英语料库的测试结果显示,引入概率信息和多特征集的策略能够改善base NP的识别效果。在众多融合算法中,加入概率信息的投票法(VotPro法)取得了最好的效果。