论文部分内容阅读
科技文献的机器翻译有着重要的研究意义和实用价值。随着科技文献数量的与日俱增,人工翻译的速度已经无法满足其日益增长的需求。机器翻译技术的发展为科技文献的自动翻译提供了有效的解决途径。本文以统计机器翻译技术为主,结合传统的规则机器翻译的优点,研究了面向科技文献机器翻译的若干技术,目标在于推进科技文献机器翻译的实用化发展,并完成一个面向科技文献的机器翻译系统。
本文的工作主要分为四个部分:题录信息的机器翻译方法的设计与实现(主要对人名、地址、机构名进行了翻译),自动获取规则的冗余度降低方法的研究(降低经典的层次短语模型中使用的规则规模以减小系统对时间和空间的需求),人工撰写规则的评价与使用(在经典的层次短语系统中融合人工撰写规则以提高翻译质量),以及实现一个科技文献翻译系统的设计与实现。
具体的说,本文研究的内容主要如下:
1.题录信息的机器翻译方法
题录信息是科技文献的一个组成部分。题录信息主要包括题名、人名、地址、机构名、邮编、联系邮箱等信息。其中题名带有专业信息,可以用翻译正文的流程进行翻译,而邮编、联系邮箱等一般不需要翻译,直接用原文即可。本文主要研究了题录信息中人名、地址和机构名的翻译方法。这些信息具有简短、规律性强的特点,因此使用简单的规则加词典的方法,就可以实现大部分内容的翻译。
本文针对人名、地址和机构名的不同特点,分别设计了不同的翻译方法,并依靠词典和翻译规则,实现了大部分内容的翻译。对于人名翻译,设计了拼音转换、假名转换和切分翻译的翻译方法;对于地址和机构名,提出了“先切分、再翻译、最后调序”的翻译流程。实验表明,用本文的方法翻译人名、地址和机构名,能够取得不错的翻译效果。
2.自动获取规则的冗余度降低方法
规则是机器翻译系统进行翻译要使用的非常重要的翻译资源之一。自动获取规则是计算机自动从语料库中抽取得到的翻译规则。自动获取的规则往往面临数量庞大、质量不一的问题。大量的冗余规则的存在,将会大大增加解码的时间,降低解码速度,对时间和空间的要求都非常高,不利于系统的实用化。同时,自动获取规则中一些质量不好的规则的存在,还会在一定程度上影响翻译系统的质量。
本文实现了多种自动获取规则的冗余度降低的方法,并用实验验证了其效果。在此基础上,提出了一种基于高频词和相对频率的规则冗余度降低方法,使用该方法可以在保证翻译质量的同时,有效的减少自动获取规则的规模,提高解码速度。
3.人工撰写规则的评价与使用
人工撰写规则是人工书写和整理的翻译规则,其具有可信度高、易于理解、撰写成本高等特点。人工撰写规则是机器翻译中重要的翻译资源之一,合理的使用人工撰写规则对统计机器翻译系统的翻译质量有重要的影响。
本文提出了一种人工撰写规则的评价方法,使用该评价方法可以帮助用户更好的书写和检查人工撰写规则的质量,并提出了人工撰写规则基于反馈的自动选择算法,使用该算法可以从大量的人工撰写规则中选出质量较高的人工撰写规则。本文还研究了人工撰写规则和层次短语系统的融合方式,通过将人工撰写规则作为特征加入到统计机器翻译系统中,有效的提高统计机器翻译系统的性能,取得了很大的进步。
4.面向科技文献机器翻译系统的设计与实现
在以上研究成果的基础上,搭建了一个面向科技文献的机器翻译系统。该系统使用基于形式句法的层次短语模型,并综合利用了记忆库、词典、人工撰写规则、自动获取规则、语言模型等资源,相比经典的层次短语模型搭建的系统,取得了很大的进步。