论文部分内容阅读
近年来,统计机器翻译研究取得了长足的进步,译文质量不断提高。由于自然语言句子本身存在的层次结构属性,使得两种语言的句子结构在进行自动转换和翻译时面临较大的困难,因此在机器翻译研究持续发展的过程中,如何充分挖掘和利用句子中所蕴含的语言结构(包括句法结构和语义结构等)知识成为统计机器翻译建模的关键性核心问题。 在当前的机器翻译研究中,基于句法结构的翻译模型逐渐进入成熟期。然而,由于该类模型往往受限于双语之间的结构差异,且句法结构无法表示句子内部的语义信息,因此人们开始慢慢将研究重点转向基于语义结构的翻译模型。也就是说,目前的机器翻译研究正处于从基于句法结构的翻译模型向基于语义结构的翻译模型转型的特殊阶段。基于这一研究背景,本文以句法结构和语义结构为基础,致力于研究和改善当前基于语言结构知识的翻译模型。论文的主要工作和创新点归纳如下: 1、提出一种改进的树到树翻译模型 树到树翻译模型能够同时把源语言和目标语言的句法结构融合到翻译进程中。理论上讲,树到树翻译模型是最为完善的基于句法结构的翻译模型。然而,在实际应用中,树到树翻译模型却往往难以取得理想的翻译效果。为了探索该模型翻译质量不好的原因,本论文对树到树翻译模型进行深入分析,并发现了导致这一结果的主要原因:双语两端的句法结构对整个翻译过程进行了太过严格的限制。在这些硬性的句法限制下,许多有效的翻译规则无法获取,解码空间太过狭小,导致翻译性能大幅度下降。针对这一问题,本文提出一种改进的树到树翻译模型,通过利用双语短语和句法树二叉化的方法来缓解树到树模型中的硬性句法限制,使之能够在保证树到树模型的理论优势条件下,松弛双语句法结构对翻译过程的限制,以求获得更好的翻译结果。实验结果也表明,改进之后的树到树模型译文质量大幅提高,并且显著地超越了经典的短语翻译模型。 2、提出一种基于无监督树结构的翻译模型 虽然基于句法结构的翻译模型取得了较大的成功,但它们仍存在两个固有的缺陷:首先,句法结构的获取需要句法分析器,而句法分析器依赖于人工标注的树库资源,导致许多资源匮乏的语言对无法构造该类翻译模型。其次,由于句法分析只是专注于自身语言结构的合法性,而忽略了词对齐和双语映射信息,导致许多非常有效的翻译规则无法获取,大大降低了规则的覆盖率。因此,从这个角度来说,目前的句法结构并不是机器翻译的最优选择。为解决这两个问题,本文研究并提出了无监督树结构的概念。与传统的句法结构相比,无监督树结构能够对双语映射进行有效地建模,并且不再依赖人工标注的树库资源。为了构造这种无监督树结构,本文提出两种方法:基于期望最大化(expectation-maximization,EM)算法的方法和基于贝叶斯推断(bayesian inference)的方法。实验表明,无监督树结构更有利于抽取有效的翻译规则,从而取得了更好的翻译质量。同时,由于该结构不需要任何句法树库资源的支持,应用范围更广。 3、提出一种基于谓词论元结构的翻译模型 句法结构仅仅表示了句子在句法层面的信息,却并没有体现句子中不同成分之间的语义关系。为了探索基于语义结构的统计机器翻译模型,本文聚焦于谓词论元结构,并提出了基于谓词论元结构的机器翻译模型。谓词论元结构是一种浅层语义结构,它表示了句子中的谓词和所属论元之间的语义依赖关系。对于机器翻译来说,它不仅仅提供了所需要的语义关系信息,而且提供了一种骨架结构用于在句子的骨架层面进行全局调序。在基于谓词论元结构的翻译模型中,我们把整个翻译过程分为三步:分析、转换和翻译,从而能够把谓词论元结构有效地应用到机器翻译过程中,取得了更好的翻译效果。我们认为,基于谓词论元结构的翻译模型在一定程度上模拟了人的翻译过程,是对基于语义结构的机器翻译模型的有益探索。