藏汉机器翻译中的集外词处理研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:mike1983mm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,藏汉翻译在藏文化传播上具有十分重要的意义。人工翻译的方式无法满足藏汉翻译的需求,将现有的较为成熟的机器翻译技术应用于藏汉机器翻译十分必要。而集外词的出现,会严重影响藏汉机器翻译的译文质量,如何正确处理藏汉翻译中出现的集外词,进一步提高翻译的质量,是藏汉翻译中一个重要的研究方向。  本文研究将传统的基于短语的翻译模型,以及当前流行的神经机器翻译技术应用于藏汉机器翻译中,并处理翻译过程中出现的集外词,以提高译文的翻译质量。此外,命名实体是集外词的表现形式之一,本文还针对藏文命名实体中的人名地名翻译进行了研究。  对于基于短语的翻译模型,融合了近义词替换模块以及单音节翻译模块这些后处理模块,在基线系统生成的译文基础上,处理集外词后NIST提高了0.215,BLEU提高了1.02。  对于神经机器翻译模型,在训练集中采取集内词替换集外词的方法,融合了多种替换策略,包括基于藏文词向量的替换策略、基于语法的替换策略以及基于藏文词编辑距离的替换策略,在基线系统生成的译文基础上,处理后NIST提高了1.40,BLEU提高了4.53。  对于藏文命名实体词的翻译,将深度神经网络应用于藏文人名地名的翻译中,对比经典的噪声信道模型和联合信源通道模型,该方法在字准确率上提高了1.8%,词准确率提高了1.9%。  本文提出的方法很好地处理了藏汉翻译中出现的集外词,有效地提高了藏汉翻译的译文质量,这些方法在藏汉机器翻译的集外词处理中具有较高的应用与研究价值。
其他文献
信息化时代,文本数据作为数字信息的重要组成部分,在数字办公、电子政务、知识传播和网上娱乐等领域,发挥着越来越重要的作用。面对日常产生的大量文本数据,计算机系统在这些文本
随着Internet的飞速发展,存储在WWW上的信息越来越大.对这些信息的再利用的需求已经十分迫切.虽然像搜索引擎那样的服务非常有用,但又能有多少用户有足够的耐力为了一个所需
本文介绍了目前最成熟的网格项目Globus中的网格安全框架GSI。并就GSI中的几项基础和扩展安全技术进行了研究。随后文章在现有的网格安全设施的基础上提出了两点改进。首先针
本文主要包括四部分内容。第一部分介绍了部分计值技术的理论基础和研究现状以及应用。第二部分介绍了Java虚拟机的体系结构和Java语言部分计值研究的发展现状。第三部分是本
该论文主要阐述了:基于网络的智能化计算机辅助教学是在现代建构主义理论的指导下,将计算机技术与教育、教学改革相结合,通过教学模式的智能化、网络化设计,衍生出的一种新的
本文对安全多方计算协议进行了研究,介绍并分析了现有的四类安全多方计算协议:“基于VSS 的安全多方计算协议”、“基于Mix-Match 的安全多方计算协议”、“基于OT 的安全多方
本文提出的网络管理方法,是在认真分析、比较当前各种网络性能、故障管理技术的优缺点后,针对故障管理中故障检测、过滤和定位中需要考虑的问题,吸收了各种现有技术的优秀思想而
远程教育以网络技术为支撑,具有时空自由、资源共享、系统开放、便于协作的优点,在发展远程教育的过程中人们深刻认识到,学习资源的共享性和复用性对远程教育的实用性和经济性具
本文讨论了RKIF规范的设计和推理引擎的实现。最终定义的RKIF实际上是一个默认封闭世界假设,并去掉了一些不常用的KIF语法特性的KIF子集。在此基础上,我们以Rete算法为核心,实现
计算机通信协议的开发难度随着复杂程度的增加而日益增大,潜在错误也越来越多,其中对协议规格说明理解的偏差是重要原因之一.因此需要对协议进行一致性测试,协议的一致性测试