论文部分内容阅读
近年来,统计机器翻译已成为了自然语言处理领域最受关注的研究热点。机器翻译能够方便不同民族、不同国度的人之间进行沟通交流,有着广大的应用前景。然而,自动生成满足人们需求的翻译仍然是一个巨大的挑战,因此激励着研究人员继续研究和改进统计机器翻译技术。 纵观统计机器翻译的发展,在自然语言表示方面涌现了不同的翻译模型及相关研究工作。在源语言的表示上,机器翻译经历了词模型、短语模型,以及引领机器翻译快速发展的句法翻译模型,其中形式句法、成分树到串、依存树到串等基于源语言句法的研究工作一度成为了研究热点。最近,源语言的连续空间表示用于指导目标端译文生成的相关研究也在不断涌现。可见,在源语言表示的学习方面,有很大的研究空间和价值。 本文从增强源语言的表示切入,提出不同粒度、不同层次的增强源语言表示的方法,改进机器翻译建模,增强机器翻译效果。根据表示粒度的不同,本文主要将其分为两类:离散结构的表示和连续空间的表示。在离散结构的表示方面,本文提出文档信息指导的术语翻译增强模型和混合树到串翻译模型。在连续空间表示方面,本文提出动态编码源语言句子的神经网络联合语言模型。主要创新点如下: 1.文档信息指导的术语翻译增强模型 由于基于短语的模型和基于形式句法的模型中使用的短语是指连续的词语串,未能突出语言学意义上的短语对翻译的作用。因此本文提出术语翻译增强模型,在机器翻译通常接受的源语言句子最初的表示形式—“具有词语边界的串形式”基础上引入术语/多词表达等固定搭配的语言学短语表示。并针对术语的性质,利用文档信息对术语翻译进行建模: 对术语的整体性翻译建模,鼓励多词术语作为一个整体进行翻译。 对术语的翻译考虑多领域性质,同一个术语在不同的领域下可能采用不同的翻译,利用文档信息对不同领域下的术语翻译进行消歧。 对术语的翻译考虑多领域性质,统一领域下术语翻译的一致性强度可能与领域相关,因此对术语的领域翻译一致性进行建模。 通过改进术语翻译的效果,进而改进术语所在的句子、文档的整体翻译效果。 2.联合源端依存句法树和成分句法树的混合树到串翻译模型 基于语言学句法的模型,包含语言学句法知识。依存句法树能够简洁地描述句子中词语之间的长距离依赖关系,但是句法短语兼容性较差。成分句法树包含很多的句法短语节点,但是在表达句子中词语之间的长距离依赖关系方面不如依存句法树。这些不同的句法树结构各具优势,但未能结合起来充分利用。因此,本文提出融合源语言句子依存句法树和成分句法树两种句法结构的混合树到串翻译模型。以依存句法树为骨架,将成分句法树中的语言学短语节点信息标记到依存句法树中,设计混合树的表示形式,并建立混合树到串翻译模型。该混合树到串模型,在保持依存树到串翻译长距离调序优势的同时,增强语言学短语兼容性,提升翻译效果。 3.基于卷积神经网络源语言句子编码的联合语言模型 除了离散结构的表示,源语言连续空间表示的研究也成为了受瞩目的热点。连续空间表示在词语、短语、句子表示方面具有强大的能力。因此本文提出自动学习有助于预测目标端译文生成的源语言句子连续空间表示方法。具体的,本文使用卷积神经网络学习句子表示,借助卷积神经网络在翻译解码时动态地生成源语言句子的连续空间表示,进而借助深度神经网络学习联合源语言和目标语言的联合语言模型,用于衡量目标语言句子的生成概率。将该联合模型融入到统计机器翻译的解码过程中,提升翻译效果。