基本名词短语识别的关键技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:ujrcji54937
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基本名词短语(base noun phrase,base NP)识别是自然语言处理领域中一项重要的基础性研究课题,其目的是从文本中提取简单、非嵌套的名词短语,不含有其他子名词短语。Base NP含有丰富的句法和语义信息,base NP识别的结果可服务于信息检索、机器翻译等诸多自然语言处理任务,并且base NP识别是典型的分类问题和序列标注问题,机器学习方法是处理这一问题的重要手段,从事这一问题的研究可以进一步推动机器学习方法的研究,因此,这项研究具有较大的应用价值和理论意义。   本文的工作重点是利用组合分类器研究base NP识别的新方法,主要工作归纳如下:   (1)在宾州汉语树库(5.0版)的基础上建立中文base NP语料库,并从英文语法分析语料中提取更大规模的英文语料。   (2)结合规则和初级分类器概率信息的组合分类器方法,构造汉语base NP分析器。   初级分类器选择支持向量机(support vector machine,SVM)和条件随机场(conditional random fields,CRF),为了从两者比较的不同结果中发掘出正确结果,笔者针对汉语base NP的语法结构特点制定了有效的规则,并且考虑CRF模型提供的后验概率信息,消除初级分类器中的歧义和错误。通过利用不同规模的语料测试,该方法提高了系统的整体识别结果。   (3)采用一种新的错误驱动的组合分类器方法实现汉语base NP识别。   在对比两种不同类型的分类器—基于转换的方法(TBL)和CRF分类结果的基础上,再利用SVM学习其中的错误规律,对两种分类器产生的不同结果进行纠错,从而达到提高系统整体性能的目的。通过在base NP语料集上进行汉语base NP识别交叉验证的实验,这种方法与单独使用TBL、CRF和SVM方法相比较,实验结果都有所提高,F值达到89.72%,相对于文中提到的其他方法,最大提高值达2.35%。   (4)研究基于多种融合算法的组合分类器在base NP识别中的理论可行性和实际效果。   在融合算法中,我们充分利用分类器提供的概率信息,并且设计不同特征集上的分类器。汉英语料库的测试结果显示,引入概率信息和多特征集的策略能够改善base NP的识别效果。在众多融合算法中,加入概率信息的投票法(VotPro法)取得了最好的效果。  
其他文献
异构数据库相关技术是数据库研究领域的一个热点,在Internet迅速发展的今天,如何将地理上分布、管理上自治、模式上异构的各种不同的数据库与各类应用系统进行有效的连接是一个
因为目前常用的视频编码国际标准如MPEG-x以及H.26x都采用了基于块的混合编码技术,使得生成的码流对信道误码非常敏感,因而,为了在Internet和无线网络等易错信道中进行高效的视
学位
语义分析是自然语言理解的关键技术之一。尽管经过几十年的发展,目前仍没有成熟的方法能够自动获取文本的语义信息。语义角色自动标注是对这一关键技术的初步探索。   本文
学位
互联网和云计算技术的快速发展让大规模的合作和共享计算能力、带宽、存储及数据成为可能,物理科学和生命科学中的大型计算问题也正因此彻底改变。一个弱计算能力的设备,一旦
随着无线通信技术、传感器技术、嵌入式计算技术和分布式信息处理技术的不断发展以及小型无线设备的广泛应用,无线自组织网络已经成为当前国际上备受关注的、知识高度集成的
在当今时代,随着互联网的飞速发展,承载数字内容的数字媒体正在兴起,它有着快速、丰富、方便、廉价的特点,给传统媒体带来很大冲击。目前,传统媒体与新媒体的融合已经成为学界和业
本文对评价推荐信息搜索系统中的文本褒贬倾向分析技术进行了研究。主要内容及结果如下: 第一,提出了一种面向标记的可变权值文本分割和聚类的综合方法。 第二,提出了使用
软件过程建模是对软件过程的抽象,它描述了软件开发活动的主要元素及其相互间的关系。软件过程建模的主要目的是准确地描述和定义组织内的软件开发行为,使得软件开发过程在整个
学位
软件缺陷分类是缺陷度量和分析的基础,是深入挖掘缺陷信息并用以评价和改进软件开发过程的重要前提。缺陷的度量分析可以帮助软件组织找到缺陷产生的根源,并有效地排除缺陷、改
学位
本文在研究EJB构件测试平台的相关工作特点、JUnit框架的使用方法以及各种相关理论和技术的基础上,对使用EJB构件测试平台的数据生成JUnit代码的需求进行了分析,并解决了工具设