基于汉语常见歧义结构消解的汉语句法分析研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：dl_wan

【摘要】

：

句法分析是自然语言处理中的一个关键性问题。句法分析是语义分析、机器翻译、信息抽取等许多自然语言处理任务的基础，这些任务的最终效果依赖于句法分析的准确率。自然语言中

【作者】

：

郑晓东

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2010年期

【关键词】

：

汉语句法分析歧义结构消解超图树核投票感知机自然语言处理机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

句法分析是自然语言处理中的一个关键性问题。句法分析是语义分析、机器翻译、信息抽取等许多自然语言处理任务的基础，这些任务的最终效果依赖于句法分析的准确率。自然语言中句法分析研究的是句子中词或者短语在句子中起到的作用和相互之间的关系，分析的最终结果往往以树的形式表示，对句法分析的研究有着重要的理论和实用价值。相对于英语的句法分析，汉语句法分析起步较晚，加之用于实验的己标注树库资源的匮乏，其发展较英语句法分析也相对落后。目前汉语句法分析的技术还远不能满足各种信息处理系统的需求，所以对汉语句法分析的研究有着迫切的现实需求。　　歧义问题也是自然语言处理中常见的研究热点，汉语中的歧义结构有很多，几乎每一种短语结构都是存在歧义的，本论文主要从宾州汉语树库CTB5.1统计出常见歧义结构进行研究。自然语言处理中要解决的歧义问题，是子句字符串的字面形式与实际意义之间的矛盾，同一个字面形式可能对应多个不同的解释意义，在本论文中，对于歧义结构的不同意义，使用句法分析的树结构来表达出不同的意义解释。歧义的存在往往影响自然语言处理任务的最后效果，成为自然语言处理的巨大障碍。因此，深入研究汉语中常见歧义结构的消除排解方法对汉语句法分析甚至自然语言处理都具有重要的作用。　　本论文的研究重点有三部分，一部分是使用基于超图的K-best汉语句法分析模型产生包含k个侯选树的分析树集合；一部分用引入树核的投票感知机方法对K个侯选树进行重排序；最后一部分是使用机器学习的方法对汉语中常见歧义结构进行歧义消解，并通过将歧义结构的歧义消解工作引入到K-best模型的重排序过程中从而最终提升句法分析的效果。本论文在汉语句法分析的工作中，将基于概率上下文无关文法的汉语句法分析分为K-best基础模型和重排序两个阶段，第一阶段使用基于PCFG的CKY算法，在性能的提升上引入了超图的思想，提高了分析的效率；第二个阶段为对第一阶段产生的多重结果的重排序技术，本论文所介绍的重排序技术有三个特色：一是实现排序问题到分类问题的转化并通过改进的投票感知机算法实现重排序；二是引入树核方法到汉语句法分析中，并对树核做了区别对待产生式规则，引入聚合产生式规则和引入λ参数的三个改进；三是引入汉语常见歧义结构的统计消解方法到重排序任务中，有效地提高了重排序的效率和效果。　　在常见歧义结构的歧义消解方面，本论文通过对宾州中文树库(CTB)5.1进行统计分析，识别出常见歧义结构，对常见歧义结构的内部词汇化和上下文结构信息进行研究分析，创建相应的特征模板，对歧义结构对应的字串在分析树中的子树结构的前后相邻结构进行获取特征，从而获取歧义结构的上下文信息进行歧义消解。在汉语句法分析的第二阶段，在对侯选树集合进行重排序时，识别出侯选树中的常见歧义结构，利用歧义结构的消解信息对侯选树集合进行重排序，从而提升汉语句法分析的效果。

其他文献

基于GIS的云理论模型在土壤重金属污染评价中的应用

由于广东省珠三角地区工业现阶段的发达，其自然环境特别是农业环境也日益呈现出存在着重金属污染的严重问题。土壤重金属污染带来的问题，对人类健康、生态环境和社会的发展，都有

学位

重金属污染土壤评价云模型统计分析地理信息系统

一种基于CPK的安全远程电子投票系统的设计实现

电子投票(Electronic Voting)泛指使用电信、网络、电子机械等手段投票或者通过电子方式计票的投票活动。使用电子投票可以显著地提高计票工作的效率；同时，投票方式的多样化也

学位

电子投票系统安全通信密码学椭圆曲线组合公钥密码

Bighive系统历史网页数据区间查询性能优化

历史网页集是一个规模庞大、随时间动态变化，同时承载了许多有价值的信息的数据集。本文研究了在这样一个数据集上进行二维区间数据查询的性能优化问题。二维区间数据查询由两

学位

Bighive系统历史网页数据URL网址区间查询性能优化设计

二进制代码逆向分析中基于符号执行的虚函数解析研究

二进制代码逆向分析在系统安全领域有着广泛的应用。涉及面向对象语言的逆向分析面临的一个基本问题是如何从二进制代码中解析出由虚函数引起的间接调用。本文基于符号执行等

学位

二进制程序代码逆向分析逆向工程虚函数解析符号执行程序调用图

移动通信交往社区发现方法的研究与实现

移动通信数据是移动通信用户之间互相联系而产生的,包含着通信的时间、地点、时长等信息,因而能够更真实而准确的反应用户的实际社会关系。同时,随着移动通信技术的不断发展

学位

移动通信社会网络分析交往社区数据挖掘群体客户行为

基于事务信息的链接预测方法研究

链接预测是一个具有挑战性的新型研究方向。随着Internet的快速发展以及电子应用的迅速普及,产生了越来越多的基于互联网的大规模的在线社会网络数据,这些数据便于收集并且从

学位

链接预测在线社会网络事务信息时序特征核函数

PARADISE索引系统的改进及应用

随着互联网信息的快速增长,搜索引擎的作用越来越重要。索引技术在网络服务中应用广泛,而索引系统是搜索引擎主要部分之一,它在搜索引擎中发挥着重要作用。基于倒排表的索引

学位

搜索引擎PARADISE索引索引改进倒排表跳查机制

基于众核平台的AVS并行编码算法研究与应用

AVS、H.264/AVC等新一代视频编码标准极大提高了压缩效率,但编码复杂度也大大提高,因而并行算法成为实现实时编码的可行方法。随着众核处理器的出现,对并行算法提出了新的挑

学位

众核平台AVS并行编码视频编码标准条带划分调制传输

地统计PPE-SVM组合模型在土壤重金属污染评价中的研究

土壤重金属污染不但影响农产品产量与品质，而且涉及大气和水环境质量，并可通过食物链危害动物和人类的生命和健康。土壤重金属污染治理问题对环境质量和经济的可持续发展具有重

学位

地统计克里格插值粒子群算法投影寻踪等级评价组合模型土壤重金属污染评价

本体驱动的REA模型在财务数据仓库中的研究与应用

现有研究指出财务数据仓库可以很好地解决财务分析决策的需求。数据仓库的构建过程就是数据规范化的过程。财务分析不仅会涉及企业财务信息,还会涉及到企业其它部门甚至企业

学位

财务数据仓库本体驱动REA模型

基于汉语常见歧义结构消解的汉语句法分析研究

其他学术论文