论文部分内容阅读
翻译规则表的质量直接影响了统计机器翻译的性能。规则抽取通常依赖于其他自然语言处理技术,如句法分析、词语对齐等。然而,大部分翻译系统仅从包含大量噪声的1-best结果中抽取翻译规则,从而将错误从前一个模块引入到翻译结果中。 为了缓解这一问题,一种简单的方法是直接使用n-best分析结果,然而n-best表示空间小、冗余信息多,影响了系统的分析速度和质量。 本文使用有效的压缩表示代替1-best结果,压缩表示的优势在于可以在多项式空间存储指数级结果空间,使得每个模块能提供更多可能的结果,从而使翻译系统做出更好的选择。本文重点研究了机器翻译训练依赖的两个模块:依存句法分析和词语对齐,取得了以下研究成果: 1.依存森林 依存语法在基于句法的统计机器翻译模型中越来越受欢迎,它的一个优势在于能直接捕获非连续词之间的关系。然而,大部分基于依存的翻译模型仅仅从1-best的依存树中抽取翻译规则和训练依存语言模型,而这会将句法分析的错误引入到翻译中来。我们为统计机器翻译提出了一种称之为依存森林的结构,可以压缩表示多棵依存树。我们设计了新的算法以从依存森林中抽取串到依存树规则并训练依存语言模型。在NIST汉英2004/2005/2006测试集上的实验结果表明我们基于森林的系统比传统基于树的系统取得了1.36到1.46个BLEU点的显著提高。 2.加权对齐矩阵在句法模型中的应用加权对齐矩阵由Liu等提出并应用于短语模型,可以压缩表示所有可能的对齐。考虑到句法模型对词语对齐更敏感,所以我们从对齐矩阵抽取句法规则。由于在句法规则中替换为非终结符的子短语会改变对齐矩阵中规则的内向和外向区域,我们设计了新的算法计算句法规则的相对频次和词汇化概率。为了平衡规则表大小和翻译质量,我们构建了一种同时考虑频次和词汇化概率的标准来评估目标端短语。实验结果表明我们的方法在层次短语模型上比基线系统显著提高1.4到1.9个BLEU点,在树到串模型上提高1.4到1.8个BLEU点。 3.加权对齐超图繁殖模型在词语对齐中起着重要的作用,而这通常被当前的压缩方法所忽略。为了解决该问题,我们提出一种称之为加权对齐超图的结构,以利用对齐链之间的关系。但是,从超图中估算规则的概率是一个NP完全问题,我们提出了一种计算上可行的分而治之策略将一个超图分解成一系列互相独立的子超图。实验结果表明我们的方法比使用1-best对齐显著提高最多1.0个BLEU点,同时在使用一个更小的规则表的情况下翻译效果好于使用n-best对齐。 4.多对齐融合词语对齐是机器翻译系统的一个核心组成部分。研究人员在词语对齐上提出了各种各样的方法,而不同的模型会产生差异很大的对齐结果。为了综合不同模型的优势,我们提出了三种方法融合多种词语对齐以改善机器翻译:(1)对齐选择,一种在最小贝叶斯风险框架下从多个对齐中选择最小期望风险对齐的新方法;(2)对齐精炼,一种将多个对齐合并成一个新对齐的改进算法,偏向多个对齐的一致性;(3)对齐压缩,一种压缩表示所有不同方法生成的对齐结果(包含上文中的(1)和(2))的结构,并对应地提出一种新的链概率的计算方法。实验结果表明,我们的方法不仅能提高对齐质量,同时也能显著提高翻译质量:比最好的单对齐结果提高1.96个BLEU点,比从多个单对齐抽出的规则合并结果提高1.28个BLEU点。