论文部分内容阅读
目前,藏汉翻译在藏文化传播上具有十分重要的意义。人工翻译的方式无法满足藏汉翻译的需求,将现有的较为成熟的机器翻译技术应用于藏汉机器翻译十分必要。而集外词的出现,会严重影响藏汉机器翻译的译文质量,如何正确处理藏汉翻译中出现的集外词,进一步提高翻译的质量,是藏汉翻译中一个重要的研究方向。 本文研究将传统的基于短语的翻译模型,以及当前流行的神经机器翻译技术应用于藏汉机器翻译中,并处理翻译过程中出现的集外词,以提高译文的翻译质量。此外,命名实体是集外词的表现形式之一,本文还针对藏文命名实体中的人名地名翻译进行了研究。 对于基于短语的翻译模型,融合了近义词替换模块以及单音节翻译模块这些后处理模块,在基线系统生成的译文基础上,处理集外词后NIST提高了0.215,BLEU提高了1.02。 对于神经机器翻译模型,在训练集中采取集内词替换集外词的方法,融合了多种替换策略,包括基于藏文词向量的替换策略、基于语法的替换策略以及基于藏文词编辑距离的替换策略,在基线系统生成的译文基础上,处理后NIST提高了1.40,BLEU提高了4.53。 对于藏文命名实体词的翻译,将深度神经网络应用于藏文人名地名的翻译中,对比经典的噪声信道模型和联合信源通道模型,该方法在字准确率上提高了1.8%,词准确率提高了1.9%。 本文提出的方法很好地处理了藏汉翻译中出现的集外词,有效地提高了藏汉翻译的译文质量,这些方法在藏汉机器翻译的集外词处理中具有较高的应用与研究价值。