论文部分内容阅读
我国源远流长的历史,为后人留下了卷帙浩繁的古文典籍。这些古文献不但具有极高的文学价值,还可以传播历史信息从而兼具历史价值。用机器来实现古文今译,不仅可以跨越古今之间的语言鸿沟,还有助于传递古文献中蕴含的历史知识和文化信息,为古文外译提供重要的参考,促进中华文化走向世界。
在已有的古文机器翻译研究中,多数的研究着力于古文到现代文之间平行语料库的构建,以及将各种机器翻译模型应用在古文到现代文的翻译,仅做了简单尝试或微小调整,研究分布在对句子进行分词或分字的粒度选择以及加入外部字典知识指导翻译等。经过梳理这些成果发现古文今译仍然存在三个问题。1)语料稀缺问题。当语料不足时,现有机器翻译方法生成译文的顺畅性、可读性都将受到影响。2)语言风格差异问题。我国各时期古文献的遣词和造句差别很大。3)一词多义(活用)问题。古文词汇在不同的上下文中有着词义相差甚远的译法,仅仅依靠翻译系统很难进行甄别常常导致错译。
针对古文机器翻译的上述问题,作者主要贡献为对外部知识的挖掘、外部知识优化古文机器翻译效果的方法的提出。在对外部知识的挖掘上,本研究在充分分析古籍白话译本和古汉语词典的语言学规律的基础上,设计古今句子对齐算法获取双语语料,进而提出基于机器翻译的句内片段提取方法从双语语料中提取高质量的句内片段翻译对,特别挖掘注释信息精炼合并为多义注释词典,依据古籍的朝代信息推算出古汉语分期信息,同时吸纳现代文单语语料共同汇聚为外部知识,构建基于外部知识协同的古汉语到现代汉语的机器翻译模型。在信息使用上,①句内片段协同可以在句对齐性能有限的情况下筛选出高质量互译片段,提升神经机器翻译模型的训练效果,同时作为翻译实例用于实例检索,可以给用户更优质的翻译体验。②注释信息协同提炼古文词汇的精准注释,采用直接替换、混合标签、拼接句的外协同方式从外部指导神经机器翻译模型的训练,同时建立序列标签编码和注释信息注意力修正的内协同方法修改Transformer的编码机制,降低了模型学习难度,并提升了模型对词汇翻译的准确性。③语言知识协同根据语言学知识对古文语料进行时期划分,将分期反向翻译模型结合回翻方法构成混合数据,再辅以语料分期的微调模型设计,提升了各时期的古文到现代文的翻译效果;采用两步翻译法实现单语语境优化进一步增加现代文译文的可读性。
以翻译效果提升为标准对每个协同方法分别进行实验验证,在语料有限的情况下,无论是三种外部知识协同方法的单独使用,还是三维外部知识的联合协同,均有效提升了古文到现代文的机器翻译性能。
在已有的古文机器翻译研究中,多数的研究着力于古文到现代文之间平行语料库的构建,以及将各种机器翻译模型应用在古文到现代文的翻译,仅做了简单尝试或微小调整,研究分布在对句子进行分词或分字的粒度选择以及加入外部字典知识指导翻译等。经过梳理这些成果发现古文今译仍然存在三个问题。1)语料稀缺问题。当语料不足时,现有机器翻译方法生成译文的顺畅性、可读性都将受到影响。2)语言风格差异问题。我国各时期古文献的遣词和造句差别很大。3)一词多义(活用)问题。古文词汇在不同的上下文中有着词义相差甚远的译法,仅仅依靠翻译系统很难进行甄别常常导致错译。
针对古文机器翻译的上述问题,作者主要贡献为对外部知识的挖掘、外部知识优化古文机器翻译效果的方法的提出。在对外部知识的挖掘上,本研究在充分分析古籍白话译本和古汉语词典的语言学规律的基础上,设计古今句子对齐算法获取双语语料,进而提出基于机器翻译的句内片段提取方法从双语语料中提取高质量的句内片段翻译对,特别挖掘注释信息精炼合并为多义注释词典,依据古籍的朝代信息推算出古汉语分期信息,同时吸纳现代文单语语料共同汇聚为外部知识,构建基于外部知识协同的古汉语到现代汉语的机器翻译模型。在信息使用上,①句内片段协同可以在句对齐性能有限的情况下筛选出高质量互译片段,提升神经机器翻译模型的训练效果,同时作为翻译实例用于实例检索,可以给用户更优质的翻译体验。②注释信息协同提炼古文词汇的精准注释,采用直接替换、混合标签、拼接句的外协同方式从外部指导神经机器翻译模型的训练,同时建立序列标签编码和注释信息注意力修正的内协同方法修改Transformer的编码机制,降低了模型学习难度,并提升了模型对词汇翻译的准确性。③语言知识协同根据语言学知识对古文语料进行时期划分,将分期反向翻译模型结合回翻方法构成混合数据,再辅以语料分期的微调模型设计,提升了各时期的古文到现代文的翻译效果;采用两步翻译法实现单语语境优化进一步增加现代文译文的可读性。
以翻译效果提升为标准对每个协同方法分别进行实验验证,在语料有限的情况下,无论是三种外部知识协同方法的单独使用,还是三维外部知识的联合协同,均有效提升了古文到现代文的机器翻译性能。