基于语言结构知识的统计机器翻译方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zs297481492
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,统计机器翻译研究取得了长足的进步,译文质量不断提高。由于自然语言句子本身存在的层次结构属性,使得两种语言的句子结构在进行自动转换和翻译时面临较大的困难,因此在机器翻译研究持续发展的过程中,如何充分挖掘和利用句子中所蕴含的语言结构(包括句法结构和语义结构等)知识成为统计机器翻译建模的关键性核心问题。  在当前的机器翻译研究中,基于句法结构的翻译模型逐渐进入成熟期。然而,由于该类模型往往受限于双语之间的结构差异,且句法结构无法表示句子内部的语义信息,因此人们开始慢慢将研究重点转向基于语义结构的翻译模型。也就是说,目前的机器翻译研究正处于从基于句法结构的翻译模型向基于语义结构的翻译模型转型的特殊阶段。基于这一研究背景,本文以句法结构和语义结构为基础,致力于研究和改善当前基于语言结构知识的翻译模型。论文的主要工作和创新点归纳如下:  1、提出一种改进的树到树翻译模型  树到树翻译模型能够同时把源语言和目标语言的句法结构融合到翻译进程中。理论上讲,树到树翻译模型是最为完善的基于句法结构的翻译模型。然而,在实际应用中,树到树翻译模型却往往难以取得理想的翻译效果。为了探索该模型翻译质量不好的原因,本论文对树到树翻译模型进行深入分析,并发现了导致这一结果的主要原因:双语两端的句法结构对整个翻译过程进行了太过严格的限制。在这些硬性的句法限制下,许多有效的翻译规则无法获取,解码空间太过狭小,导致翻译性能大幅度下降。针对这一问题,本文提出一种改进的树到树翻译模型,通过利用双语短语和句法树二叉化的方法来缓解树到树模型中的硬性句法限制,使之能够在保证树到树模型的理论优势条件下,松弛双语句法结构对翻译过程的限制,以求获得更好的翻译结果。实验结果也表明,改进之后的树到树模型译文质量大幅提高,并且显著地超越了经典的短语翻译模型。  2、提出一种基于无监督树结构的翻译模型  虽然基于句法结构的翻译模型取得了较大的成功,但它们仍存在两个固有的缺陷:首先,句法结构的获取需要句法分析器,而句法分析器依赖于人工标注的树库资源,导致许多资源匮乏的语言对无法构造该类翻译模型。其次,由于句法分析只是专注于自身语言结构的合法性,而忽略了词对齐和双语映射信息,导致许多非常有效的翻译规则无法获取,大大降低了规则的覆盖率。因此,从这个角度来说,目前的句法结构并不是机器翻译的最优选择。为解决这两个问题,本文研究并提出了无监督树结构的概念。与传统的句法结构相比,无监督树结构能够对双语映射进行有效地建模,并且不再依赖人工标注的树库资源。为了构造这种无监督树结构,本文提出两种方法:基于期望最大化(expectation-maximization,EM)算法的方法和基于贝叶斯推断(bayesian inference)的方法。实验表明,无监督树结构更有利于抽取有效的翻译规则,从而取得了更好的翻译质量。同时,由于该结构不需要任何句法树库资源的支持,应用范围更广。  3、提出一种基于谓词论元结构的翻译模型  句法结构仅仅表示了句子在句法层面的信息,却并没有体现句子中不同成分之间的语义关系。为了探索基于语义结构的统计机器翻译模型,本文聚焦于谓词论元结构,并提出了基于谓词论元结构的机器翻译模型。谓词论元结构是一种浅层语义结构,它表示了句子中的谓词和所属论元之间的语义依赖关系。对于机器翻译来说,它不仅仅提供了所需要的语义关系信息,而且提供了一种骨架结构用于在句子的骨架层面进行全局调序。在基于谓词论元结构的翻译模型中,我们把整个翻译过程分为三步:分析、转换和翻译,从而能够把谓词论元结构有效地应用到机器翻译过程中,取得了更好的翻译效果。我们认为,基于谓词论元结构的翻译模型在一定程度上模拟了人的翻译过程,是对基于语义结构的机器翻译模型的有益探索。
其他文献
火灾探测报警监控系统是一个综合了传感器技术、微电子技术、计算机技术、网络技术、控制技术和火灾基础政论的大型系统.传统的火灾探测报警监控系统是采用单一、开关量探测
利用廉价的PC机群和易于掌握的类似于串行的编程技术并行计算,因此容易普及和推广,具有广阔的发展前景.CORBA是新一代的分布式计算环境,利用CORBA技术构建的分布对象进行网络
工业机器人代替产业工人完成繁重、单调的体力劳动已经成为现代工业发展的大趋势。随着机器人应用范围的扩大,客户对机器人的性能要求也逐步提高。我国使用的工业机器人大部分
无线传感器网络中节点定位技术是其主要的支撑技术之一,只有节点自身可以正确定位才能提供监测事件的位置信息,而移动锚节点路径规划是节点定位的一个有力的辅助,移动锚节点
近年来,随着数字媒体技术和互联网技术的飞速发展,网络上和各种移动终端上出现了越来越多格式多样的数字媒体内容,这些内容易于复制、易于篡改等特点使得目前对数字作品内容的盗
Alopex-based Evolutionary Algorithm (AEA)算法是一种融合了Alopex的启发方式和进化算法的群搜索技术的新型优化算法,即具有梯度下降的特点,又具有模拟退火的特点。本文在A
学位
论文以化工过程建模的方法改进为研究目标,以作才从事仿真系统开发的经验为基础,给出了作才在化工过程对象建模与仿真中的最新研究成果.论文首先阐述了过程仿真的必要性,并分
针晶闸管相控直流操作电源系统体积大、效率低、功率因数低、维护难、可靠性差以及模拟监控单元线路复杂、不易调试等缺点,作者研制了基于高频软开关电源的电务直流操作电源
对于不平衡数据的学习,根据其是否要求代价信息参与计算,可分为代价敏感学习和不需要代价的学习方法。本篇论文将所有不需要代价参与计算的学习统一定义为代价缺失学习。若代价