论文部分内容阅读
随着互联网的迅猛发展,跨语言的交流与合作日益增多,导致人们对机器自动翻译的需求变得愈加强烈。然而目前的机器翻译生成的译文质量较低,存在大量漏译、错译,甚至完全不通顺等现象,很难满足用户的实际需求。因此,如何快速有效地提高机器翻译质量近年来成为了学术界和工业界共同关注的问题。 复述,是指在同一种语言内,在语义不变的前提下,对原始形式的不同表达。通过复述方法,可以对单词、短语,甚至是句子产生形式上的变化,从而实现某些特定的目标。近年来,复述作为一种底层技术,在自然语言处理的很多应用中展现了重要的作用。尤其在机器翻译领域,由于复述与机器翻译相比具有更广泛的获取来源,同时可以使用更丰富的语言特征,所以利用复述技术来提高机器翻译质量具有重要的实践意义。本文的主要工作是研究通过复述技术扩展机器翻译的双语训练语料以及改写输入句子的几种方法。对于前者,我们分别尝试了基于统计的复述模型和基于依存分析和句子生成的复述模型两种不同的复述方法;对于后者,我们则是从两个不同的角度,传统的机器翻译和目前互联网上比较流行的辅助翻译,研究了基于复述改写输入句子对最终译文质量的影响。 首先,本文通过基于统计的复述生成的方法对机器翻译的双语平行语料进行扩展,目的是解决机器翻译系统覆盖率不足的问题。方法对双语语料的源语言句子生成复述句,然后与对应的目标语言句子一起形成新的双语平行语料。在统计复述生成框架中,我们使用句子新颖度模型作为目标函数,目的是为机器翻译模型选择包含最多新信息的复述结果。同时,我们通过复述概率模型和语言模型来保证生成的复述句子的准确程度和流利程度。在最终的实验中,通过我们的方法改进的翻译模型,在不同规模的数据集上均显著地超过了目前主流的机器翻译系统。 其次,本文通过另一种基于依存分析与句子生成的复述方法,对机器翻译的双语平行语料进行扩展。首先对输入句子进行依存分析得到依存树,然后以依存树作为输入进行句子生成,取概率得分最高并且与原句不同的结果,就得到了一个与原句语义相同但单词顺序不同的复述句子。通过这种方法扩展双语平行训练语料,可以在不引入额外语料资源的前提下,更深层次地挖掘双语平行训练语料中包含的语言学现象,进而提高训练得到的翻译模型对输入文本的覆盖程度。 再次,本文提出了一种新的利用反向翻译从机器翻译的双语平行训练语料中抽取复述规则的方法。在不借助额外复述资源的前提下,我们对双语平行语料的源语言部分和目标语部分的“目标语言——源语言”翻译结果进行比较,从而获取复述规则。得到的复述规则可以涵盖单词、短语和句子结构三种级别的复述变化。通过应用这些复述规则来改写机器翻译系统的输入句子,可以让句子向机器翻译训练语料覆盖的方向产生复述变化,从而使得输入句子变得更容易被翻译,最终更容易获得高质量的译文。 最后,本文研究了利用复述技术对例句检索式辅助翻译系统的输入查询进行改写的方法。由于目前的自动机器翻译质量无法满足用户的实际需求,所以例句检索作为一种人机结合的辅助翻译方式近年来在互联网上非常流行。用户输入查询检索相关例句,然后通过学习高质量的例句从而拼凑出理想的翻译结果。在本文中,我们通过复述搭配和统计复述生成两种方法对用户的输入进行改写,改写的目的有两个,一个是将不正确或者不地道的句子改写成为正确并且流利的形式,另一个目的是对查询进行扩展,从而匹配更多的例句,提供更丰富的检索结果。首先,本文提出了一种复述搭配的方法,针对性的解决翻译中最容易困惑的搭配问题。然后,我们通过统计复述生成方法,在短语级别上对用户查询进行改写和修正。实验表明,我们的方法为用户查询提供了高质量的改写与扩展,最终提高了匹配的例句数量,增强了用户体验。 总之,本文在改进现有复述方法的基础上,针对机器翻译的特点提出了几种新的复述方法,并且应用这些方法从扩展双语平行语料和改写输入句子两个不同的角度入手,最终提高了机器翻译及辅助翻译的质量。本研究取得了一些初步的研究成果,期待能对复述领域和机器翻译领域的研究者产生一些借鉴意义。