统计机器翻译训练中的压缩表示及算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:whjsdsdsd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
翻译规则表的质量直接影响了统计机器翻译的性能。规则抽取通常依赖于其他自然语言处理技术,如句法分析、词语对齐等。然而,大部分翻译系统仅从包含大量噪声的1-best结果中抽取翻译规则,从而将错误从前一个模块引入到翻译结果中。  为了缓解这一问题,一种简单的方法是直接使用n-best分析结果,然而n-best表示空间小、冗余信息多,影响了系统的分析速度和质量。  本文使用有效的压缩表示代替1-best结果,压缩表示的优势在于可以在多项式空间存储指数级结果空间,使得每个模块能提供更多可能的结果,从而使翻译系统做出更好的选择。本文重点研究了机器翻译训练依赖的两个模块:依存句法分析和词语对齐,取得了以下研究成果:  1.依存森林  依存语法在基于句法的统计机器翻译模型中越来越受欢迎,它的一个优势在于能直接捕获非连续词之间的关系。然而,大部分基于依存的翻译模型仅仅从1-best的依存树中抽取翻译规则和训练依存语言模型,而这会将句法分析的错误引入到翻译中来。我们为统计机器翻译提出了一种称之为依存森林的结构,可以压缩表示多棵依存树。我们设计了新的算法以从依存森林中抽取串到依存树规则并训练依存语言模型。在NIST汉英2004/2005/2006测试集上的实验结果表明我们基于森林的系统比传统基于树的系统取得了1.36到1.46个BLEU点的显著提高。  2.加权对齐矩阵在句法模型中的应用加权对齐矩阵由Liu等提出并应用于短语模型,可以压缩表示所有可能的对齐。考虑到句法模型对词语对齐更敏感,所以我们从对齐矩阵抽取句法规则。由于在句法规则中替换为非终结符的子短语会改变对齐矩阵中规则的内向和外向区域,我们设计了新的算法计算句法规则的相对频次和词汇化概率。为了平衡规则表大小和翻译质量,我们构建了一种同时考虑频次和词汇化概率的标准来评估目标端短语。实验结果表明我们的方法在层次短语模型上比基线系统显著提高1.4到1.9个BLEU点,在树到串模型上提高1.4到1.8个BLEU点。  3.加权对齐超图繁殖模型在词语对齐中起着重要的作用,而这通常被当前的压缩方法所忽略。为了解决该问题,我们提出一种称之为加权对齐超图的结构,以利用对齐链之间的关系。但是,从超图中估算规则的概率是一个NP完全问题,我们提出了一种计算上可行的分而治之策略将一个超图分解成一系列互相独立的子超图。实验结果表明我们的方法比使用1-best对齐显著提高最多1.0个BLEU点,同时在使用一个更小的规则表的情况下翻译效果好于使用n-best对齐。  4.多对齐融合词语对齐是机器翻译系统的一个核心组成部分。研究人员在词语对齐上提出了各种各样的方法,而不同的模型会产生差异很大的对齐结果。为了综合不同模型的优势,我们提出了三种方法融合多种词语对齐以改善机器翻译:(1)对齐选择,一种在最小贝叶斯风险框架下从多个对齐中选择最小期望风险对齐的新方法;(2)对齐精炼,一种将多个对齐合并成一个新对齐的改进算法,偏向多个对齐的一致性;(3)对齐压缩,一种压缩表示所有不同方法生成的对齐结果(包含上文中的(1)和(2))的结构,并对应地提出一种新的链概率的计算方法。实验结果表明,我们的方法不仅能提高对齐质量,同时也能显著提高翻译质量:比最好的单对齐结果提高1.96个BLEU点,比从多个单对齐抽出的规则合并结果提高1.28个BLEU点。  
其他文献
计算机视觉和模式识别的主要目标是让计算机拥有类似人类视觉的功能,能够较好地分析、理解图像和视频的内容。在计算机视觉领域,物体检测一直是主要研究命题之一。物体检测的任
随着体系结构的发展,各种众核处理器结构已经出现,在单芯片上集成上千核已经可以实现,并会在不远的将来商用化。模拟这样庞大的处理器结构是个巨大的挑战。传统的模拟器都是串行
随着多媒体时代的来临,视频编解码作为一门音视频产业所依赖的共性技术而被广泛关注。微软公司提出的VC-1视频编解码标准是第三代高清视频编解码标准的典型代表,由于其整合了以
云计算和大数据等新应用模式的出现对计算机系统网络处理性能提出了更高的要求。与此同时,随着网络传输速度的快速提高以及处理器系统结构的不断改进,传统网络处理的机制、方法
近年来,随着Web服务的高速发展,HTTP流量增长迅速。如今HTTP协议已占据了互联网络流量中很大的一部分。由于HTIP协议灵活,流行度高,越来越多的网络恶意服务开始利用HTTP进行通信
话题模型是近年来在文本分析和挖掘领域比较流行的机器学习方法,不像传统的向量空间模型在高维稀疏的单词空间中刻画文档,它在表示文档时,通过使用隐话题将文档和单词联系起来。
大规模图算法是移动互联网、物联网、大数据和生物信息处理等新兴应用的核心计算模式。本论文主要围绕两个大规模数据处理的基础算法开展研究:第一个是图遍历算法,是生物信息
学位
互联网被划分为许多较小的自治系统,目前,自治系统之间的路由选择协议采用的是边界网关协议(Border Gateway Protocol,BGP)。BGP协议存在严重的安全缺陷:BGP路由器默认接受网络
学位