基于语义的依存句法分析优化研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:suiye001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理研究中的关键技术之一,其任务是根据给定的语法,自动推导出句子的语法结构。它对于机器翻译、信息检索、信息抽取和语义分析等自然语言处理系统都有着极其重要的意义。自然语言处理根据其处理的对象的不同分为若干层次,对于语义的处理就是其中的一个层次,语义是语言对客观世界的解释,是众多研究领域的基础,若要明白某段语言的含义,首先就要了解其语义结构。  本文从语义层面对自然语言处理做了相关研究,提出并实现了一种基于语义的汉语依存句法分析优化方法。  语义分析是理解自然语言的基础,本文在各种知识表示方法及各种语义学理论的基础上,采用以本体的形式来表示语义,提出并构建了基于背景知识的汉语语义知识表述体系,为每一个词汇构建一个本体实例化图来描述该词汇的语义。每当遇到一个词汇,则根据词汇的基本信息进行语义识别,如果背景知识中有这个词汇的相关语义描述,则视为这个词能够被语义理解,反之则认为不能理解这个词语。  根据依存句法树的词汇进行语义识别,通过识别出来的实例化图以及依赖关系对依存句法树从语义层面计算其语义特征量,即句法分析结果的语义综合匹配度,根据语义综合匹配度优化句法分析结果的排序,从而优化依存句法分析结果的正确性。  接着,给出了本方法的测评结果,我们的检测语料库为维基百科91个大学的页面内容,总共分成5223个句子,使用ctbparser中文句法分析器给出每句的前十种可能的句法分析结果,为了减小由背景知识不足引起的误差,对其中语义综合评价度大于0.1000的数据进行统计。结果表明,将语义引入依存句法分析,不仅提高了依存句法分析器的准确率,而且使依存句法分析结果更符合语义结构,更接近语言的原意。  本文在最后对全文进行了总结,并指出了下一步的研究工作。本文把工作从常规的根据词语的文字、词性、语法结构等方面分析深入到了从语义层面。建立了系统的、完整的背景知识,并在此基础上提出并实现了一个基于语义思想的汉语依存句法分析优化的系统。经过最后对语料库的实验检测,取得了显著的结果。本文的工作将对下一步的研究工作奠定良好的理论基础和实践基础。
其他文献
定性概率网是贝叶斯网络的一种定性抽象方式,表达的是节点之间的单调影响,即变量间增减的趋势,具有高效的推理机制。然而,有时我们并不关心定性概率网所表达的节点后验概率之
语音识别是一门内涵丰富、应用广泛的技术,在一些应用领域中正迅速成为一个关键的具有竞争力的技术,如用于自动口语翻译,实现跨语言交流。本文以汉语大词表连续语音识别为应用背
蛋白质复合体在各种细胞活动中都扮演了非常重要的角色。因此,如何有效地从蛋白质相互作用网络中预测蛋白质复合体成为生物信息学中一项重要的工作。蛋白质复合体具有高密度和
目前,越来越多的应用如几何重建、碰撞检测、混合现实、手势识别等,都依赖于对三维场景准确且快速的分析。通过基于图像的分析或者激光扫描技术来获取场景的深度图,其代价高昂且
移动Ad Hoc网络是由移动节点组成的无线移动通信网络,具有动态拓扑、无线通信的特点,与其它网络相比,Ad Hoc网络的独有特性带来了路由、节点协作、安全等一系列新问题,网络安
盲人是社会中需要被关注的弱势群体,盲人感知周围环境信息的手段有限,在陌生环境中很难获取到足够的环境信息。本文提出了基于蓝牙的盲人环境感知辅助方法,并开发了相应的原型系
随着社会的发展,互联网信息呈现爆炸式的增长,通过观察网民提交的文本发现,大多数网站特别是新闻和政府的网站,文本信息都具有结构化的特点,通常包含标题文本和正文文本。正
现今因特网的威胁中,僵尸网络是一种危害性极高,且感染数量逐年上升的重大威胁之一。使用者的计算机如果被植入僵尸病毒,攻击者即可从远程下指令给所有被植入僵尸病毒的僵尸计算
在网络多媒体信息海量出现的今天,多媒体数据库中出现大量重复性数据,这不仅给多媒体数据库造成巨大的存储空间浪费,也使信息检索和查询变得困难。因此对多媒体数据重复检测技术
糖尿病视网膜病变是糖尿病严重的并发症,是成年人视力下降甚至致盲的主要原因之一。硬性渗出物是糖尿病视网膜病变的早期特征之一,因此对硬性渗出物进行早期的普查,能有效防止视