汉英统计翻译中基于句法的预调序方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:PoolD
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的迅速发展与普及,极大地方便了世界各地人们的交流和信息的获取。但语言使用的不同却给人与人之间的交流和信息的获取带来极大的障碍。目前,全世界的语言多达数千种,即便是常用的也有数十种。与此同时,网络上的数据信息也正在呈爆炸性增长,据估计,目前全球存储的电子数据总量已达到ZB级别,并且还将继续增加。面对如此海量的数据信息,传统的人工翻译显然已经不能满足人们的需要,从而导致对机器翻译需求的不断增加。  机器翻译经过几十年来的不断发展,已取得了一定的成就。近几年来,一些实用的机器翻译系统相继在互联网上出现。目前,互联网上出现了一些较为出色的翻译系统,如谷歌(Google)和微软的必应(Bing)在线翻译系统,这些翻译系统大多使用的是基于短语的统计翻译方法。基于短语的统计翻译系统尽管取得了巨大的成效,但仍有很多的不足之处和较大的提升空间,这些机器翻译系统的性能与人工翻译相比还有较大差距,尤其是在生成的目标语言的语序上仍有很多问题亟待解决。  迄今为止,已有不少关于调序的研究工作,这些工作针对不同语言对之间的翻译,提出了各种各样的方法,这些调序方法大体上可分为两类:在翻译时调序和在翻译之前对语料进行预调序。在翻译时刻的调序方法一般都是通过在翻译模型中加入一些调序模型来处理调序问题。而预调序方法则往往借助于一些语言学知识,如词性、句法结构等,对训练和测试语料的句子在翻译之前进行调序。然而,已有的调序方法都存在一定的不足,那些在其他语言对的翻译中取得很好效果的方法在汉英翻译中一般都无法取得同样的效果,而现有的一些针对汉英翻译提出的调序方法也只能解决部分调序问题。  本文提出一种基于句法的预调序方法来解决基于短语的汉英翻译系统中的调序问题。首先,使用训练语料的源语言句法分析树和双语词对齐信息来自动抽取调序规则,用得到的规则调整训练和测试语料源语言句法分析树,使得源语言句子的语序更加接近目标语言句子。然后,用调序后的句法树重新生成训练和测试语料句子,以此作为输入进行翻译系统的训练和翻译。论文的方法通过使用更多的句法信息,在一定程度上解决了一些类似方法在其他语言对上取得了效果却在汉英翻译中无效的问题。实验表明,该方法使翻译结果的BLEU值提高了大约0.71~1.27,并且使用预调序也能减轻翻译时刻的调序负担。
其他文献
在三网融合的环境下,业务运行协同平台需要为各种增值业务提供运行环境,包括对各种资源的访问,列如提供对业务数据和用户数据的存储访问,而且还需要为业务的快速开发及部署提
随着计算机软硬件技术的发展,普适计算不断的融入到人们的生活中,它是计算、通信和数字技术等多种技术的融合,提高了工作效率和生活便利性。上下文感知计算作为普适计算的一个重
在大数据集下进行高性能的联机分析处理(OLAP)需要高性能的分析处理引擎。同时面对数据规模的快速增长,OLAP处理引擎需要有很好的扩展性,以适应不断增长的数据规模。为了解决大
随着计算机技术的飞速发展,人们对计算机的应用、对信息的记录越来越多的转向于视频、音频等多媒体上。在互联网上,视频、音频的应用也层出不穷,这些应用使其数据量急剧递增。大
以Web服务为代表的软件服务及软件服务协同已成为一种典型的Internet应用形态。集成单一服务所提供的功能以形成新的、满足复杂需求的服务组合技术已成为提高软件重用性,构造I
网络中的集群行为具有爆发性、复杂性、扩散性、动力性等特征,为网络安全管理带来极大的困难。本研究以网络中的威胁集群行为作为新的视角,以网络安全监测样本数据为基础,结合复
随着无线设备数量的增长和无线服务对频谱需求的不断增加,频谱资源紧张的问题变得日益严重;而另一方面,调查显示大部分的频谱并未被充分利用甚至处于闲置状态。机会频谱接入被
随着互联网和数字媒体技术的普及,数字文本的数量迅速增加,文本分类问题受到了研究者们的广泛关注。多示例学习由于其强大的表示能力可以更好地描述文本数据。许多情况下一个文
随着计算机网络和多媒体技术的飞速发展,VOIP技术作为一种IP通讯技术得到了广泛的关注。SIP协议(Session Initiation Protocol)是实现VOIP技术的一种常用协议,由IETF组织提出
数据挖掘是一种典型的面向信息智能的应用技术,它不仅能对海量数据进行分析处理,并且能够找出数据之间的潜在联系,从而得到有价值的信息,帮助科学决策。本文就是对数据挖掘技术的