机器翻译中混淆网络融合方法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:west_fox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,系统融合方法逐渐在机器翻译领域受到重视。系统融合可以综合利用不同翻译系统的优点,缓解数据稀疏,选择最佳译文,从而提高机器翻译效果。维吾尔语和汉语间的机器翻译平行语料库规模较小,而且词法及句法分析方面的基础性研究不够成熟;两种语言间形态差异较大,译文中表现出了词形错误和语序混乱的现象。这很大程度上制约了维汉机器翻译的发展。本文的工作建立在词语级系统融合的基础上,主要做了以下方面的工作:   针对维汉机器翻译中一些对齐系统将实词对的很好而虚词不够好,另一些对齐系统虚词对的不错实词却差些,本文提出了多个对齐系统融合的方法提高对齐精度。具体来说,首先将GIZA++产生的对齐结果与TER对齐方法产生的对齐结果进行融合,再以融合的对齐结果构建混淆网络,最后解码输出最佳译文。   针对维汉词语级融合中单个混淆网络的系统融合过分依赖参考句子以及调序能力有限的问题,本文提出了多个混淆网络的重评分和最小贝叶斯风险的解码方法,通过多个混淆网络搜索到更好的融合结果。参考句子的词序决定混淆网络的基本词序,参考句子选择不当会导致混淆网络的融合效果不理想。多混淆网络的方法不再从多个翻译结果中选出一个参考,而将每个翻译结果都当作一次参考,其它翻译结果与参考对齐。   最后,本文对实验结果进行了分析和总结。实验证明,对齐系统融合的方法可以有效地提高词对齐的准确率;多个混淆网络的解码方法减少了参考句子的不确定性以及缓解数据稀疏问题,最终提高机器翻译的效果。
其他文献
随着计算技术和网络技术的飞速发展,IT基础设施中的计算、存储等各类资源都通过网络聚合在一起。这种基于网络的计算环境通常直接服务于开放的、大规模的用户群体,而用户的需求
本文研究了将多个不同的监督学习模型和非监督学习模型进行合并的问题,并开发了数据挖掘云服务平台COMS(Cloud Oriented Mining System)。   现有的对多模型合并问题的研究
微生物功能基因组与元基因组的研究是目前微生物领域中的热点,其数据种类繁杂、数据量大、格式多样等特点,给研究人员使用和分析数据信息带来了一定的障碍。通过与中国科学院微
在以静态网页为主的Internet上,网页的访问模式基本符合Power-Law分布。Power-Law分布是Web缓存和内容分发技术的理论依据,即可以用少量的资源满足大多数访问的请求。但是随着
现在人们对家庭健康的关注度越来越高。如何通过电子技术手段为人们提供更好的健康保健是电子健康(E-health)领域的主要研究内容。基于传感器的行为识别能够实现面向情景感知
视频的理解是一个高层语义信息与底层视觉特征信息自然融合的过程。如何有效地对视频信息进行分析,实现视频内容理解,并根据视频理解所获得的知识进行推理和决策是一个重要的研
近年来,表面质感建模在现代计算机应用中发挥着越来越重要的作用,在电影电视、娱乐和可视化等领域得到了广泛的应用与发展。表面质感建模是计算机图形学的重要研究课题,也是真实
由于硅技术在处理器工业发展对处理器工业的影响,为了满足当前对高性能和高吞吐率的需求,众核处理器成为主流计算机体系结构。然而,因为速度限制和精确度的不足,使用传统的方法对
随着集成电路复杂度的增长,传统的仿真验证方法越来越难以确保电路的正确性。形式化验证方法已经成为学术界研究的热点,并且逐步开始在工业界得到应用。在集成电路中普遍存在着
随着移动终端的广泛普及,移动应用程序为用户提供着便捷的服务,目前几乎覆盖了人们日常生活的方方面面。与此同时,移动应用携带了大量用户数据信息,既可以对数据进行快速的计算处