论文部分内容阅读
互联网技术的迅速发展与普及,极大地方便了世界各地人们的交流和信息的获取。但语言使用的不同却给人与人之间的交流和信息的获取带来极大的障碍。目前,全世界的语言多达数千种,即便是常用的也有数十种。与此同时,网络上的数据信息也正在呈爆炸性增长,据估计,目前全球存储的电子数据总量已达到ZB级别,并且还将继续增加。面对如此海量的数据信息,传统的人工翻译显然已经不能满足人们的需要,从而导致对机器翻译需求的不断增加。 机器翻译经过几十年来的不断发展,已取得了一定的成就。近几年来,一些实用的机器翻译系统相继在互联网上出现。目前,互联网上出现了一些较为出色的翻译系统,如谷歌(Google)和微软的必应(Bing)在线翻译系统,这些翻译系统大多使用的是基于短语的统计翻译方法。基于短语的统计翻译系统尽管取得了巨大的成效,但仍有很多的不足之处和较大的提升空间,这些机器翻译系统的性能与人工翻译相比还有较大差距,尤其是在生成的目标语言的语序上仍有很多问题亟待解决。 迄今为止,已有不少关于调序的研究工作,这些工作针对不同语言对之间的翻译,提出了各种各样的方法,这些调序方法大体上可分为两类:在翻译时调序和在翻译之前对语料进行预调序。在翻译时刻的调序方法一般都是通过在翻译模型中加入一些调序模型来处理调序问题。而预调序方法则往往借助于一些语言学知识,如词性、句法结构等,对训练和测试语料的句子在翻译之前进行调序。然而,已有的调序方法都存在一定的不足,那些在其他语言对的翻译中取得很好效果的方法在汉英翻译中一般都无法取得同样的效果,而现有的一些针对汉英翻译提出的调序方法也只能解决部分调序问题。 本文提出一种基于句法的预调序方法来解决基于短语的汉英翻译系统中的调序问题。首先,使用训练语料的源语言句法分析树和双语词对齐信息来自动抽取调序规则,用得到的规则调整训练和测试语料源语言句法分析树,使得源语言句子的语序更加接近目标语言句子。然后,用调序后的句法树重新生成训练和测试语料句子,以此作为输入进行翻译系统的训练和翻译。论文的方法通过使用更多的句法信息,在一定程度上解决了一些类似方法在其他语言对上取得了效果却在汉英翻译中无效的问题。实验表明,该方法使翻译结果的BLEU值提高了大约0.71~1.27,并且使用预调序也能减轻翻译时刻的调序负担。