面向科技文献机器翻译的若干技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:ana504
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技文献的机器翻译有着重要的研究意义和实用价值。随着科技文献数量的与日俱增,人工翻译的速度已经无法满足其日益增长的需求。机器翻译技术的发展为科技文献的自动翻译提供了有效的解决途径。本文以统计机器翻译技术为主,结合传统的规则机器翻译的优点,研究了面向科技文献机器翻译的若干技术,目标在于推进科技文献机器翻译的实用化发展,并完成一个面向科技文献的机器翻译系统。   本文的工作主要分为四个部分:题录信息的机器翻译方法的设计与实现(主要对人名、地址、机构名进行了翻译),自动获取规则的冗余度降低方法的研究(降低经典的层次短语模型中使用的规则规模以减小系统对时间和空间的需求),人工撰写规则的评价与使用(在经典的层次短语系统中融合人工撰写规则以提高翻译质量),以及实现一个科技文献翻译系统的设计与实现。   具体的说,本文研究的内容主要如下:   1.题录信息的机器翻译方法   题录信息是科技文献的一个组成部分。题录信息主要包括题名、人名、地址、机构名、邮编、联系邮箱等信息。其中题名带有专业信息,可以用翻译正文的流程进行翻译,而邮编、联系邮箱等一般不需要翻译,直接用原文即可。本文主要研究了题录信息中人名、地址和机构名的翻译方法。这些信息具有简短、规律性强的特点,因此使用简单的规则加词典的方法,就可以实现大部分内容的翻译。   本文针对人名、地址和机构名的不同特点,分别设计了不同的翻译方法,并依靠词典和翻译规则,实现了大部分内容的翻译。对于人名翻译,设计了拼音转换、假名转换和切分翻译的翻译方法;对于地址和机构名,提出了“先切分、再翻译、最后调序”的翻译流程。实验表明,用本文的方法翻译人名、地址和机构名,能够取得不错的翻译效果。   2.自动获取规则的冗余度降低方法   规则是机器翻译系统进行翻译要使用的非常重要的翻译资源之一。自动获取规则是计算机自动从语料库中抽取得到的翻译规则。自动获取的规则往往面临数量庞大、质量不一的问题。大量的冗余规则的存在,将会大大增加解码的时间,降低解码速度,对时间和空间的要求都非常高,不利于系统的实用化。同时,自动获取规则中一些质量不好的规则的存在,还会在一定程度上影响翻译系统的质量。   本文实现了多种自动获取规则的冗余度降低的方法,并用实验验证了其效果。在此基础上,提出了一种基于高频词和相对频率的规则冗余度降低方法,使用该方法可以在保证翻译质量的同时,有效的减少自动获取规则的规模,提高解码速度。   3.人工撰写规则的评价与使用   人工撰写规则是人工书写和整理的翻译规则,其具有可信度高、易于理解、撰写成本高等特点。人工撰写规则是机器翻译中重要的翻译资源之一,合理的使用人工撰写规则对统计机器翻译系统的翻译质量有重要的影响。   本文提出了一种人工撰写规则的评价方法,使用该评价方法可以帮助用户更好的书写和检查人工撰写规则的质量,并提出了人工撰写规则基于反馈的自动选择算法,使用该算法可以从大量的人工撰写规则中选出质量较高的人工撰写规则。本文还研究了人工撰写规则和层次短语系统的融合方式,通过将人工撰写规则作为特征加入到统计机器翻译系统中,有效的提高统计机器翻译系统的性能,取得了很大的进步。   4.面向科技文献机器翻译系统的设计与实现   在以上研究成果的基础上,搭建了一个面向科技文献的机器翻译系统。该系统使用基于形式句法的层次短语模型,并综合利用了记忆库、词典、人工撰写规则、自动获取规则、语言模型等资源,相比经典的层次短语模型搭建的系统,取得了很大的进步。
其他文献
无线传感器网络是一类新兴的网络,它主要通过分布在区域内的传感器节点来感知收集附近的相关数据,并将数据传输到汇聚节点。收集到的数据经过处理之后,最终传输给终端用户。
移动性管理是无线通信网络中实现用户快速接入网络并在通信过程中在不同小区间平滑切换的重要保证。随着以OFDM为核心的高速高带宽移动通信技术的发展,蜂窝小区尺寸越来越小,用
社会情感优化算法借鉴了社会学、社会心理学、组织行为学等有关人类群体的形成、进化及决策等方面的研究成果,考虑了情绪在人类决策行为中的作用以及外界信息对人类情绪的影
多智能体系统是一个复杂的动态系统,系统中问题求解空间巨大,是人工智能领域研究的一个热点问题。智能体系统的一个主要特征是能够适应未知环境,其中学习能力是智能体系统的
目前互联网业务是通信服务市场最大的利润增长点,企业间竞争日益激烈,而服务质量将成为通信企业取胜的关键。由此,为了满足不同通信企业的用户跨网访问的需求以及各个通信企
随着各种无线接入技术的日益成熟以及智能终端的迅猛发展,移动互联网已经成为未来互联网络的一个发展趋势。现行的路由结构在节点移动性支持方面存在很大的局限性,移动管理是互
数据量的爆炸式增长导致传统的集中式数据挖掘技术在面对海量数据时无法获得足够的计算资源,与此同时,网络中存在的大量终端提供了很多潜在的计算环境,这引发了分布式数据挖掘技
多线程编程广泛应用于当今多核、分布式系统中,是提高程序性能、充分利用并行体系结构硬件资源的一种重要手段。但是,多线程程序编程比较困难,容易引起并发错误,而这些并发错误具
图像分割是数字图像处理和计算机视觉中最基本的问题,已经被广泛研究了数十年。图像分割是将二维图像划分为多个子区域的过程,每个子区域的像素具有某种相似的视觉属性。图像分
助残人机交互技术是实现科技助残的重要研究内容,对增强残疾人的自理能力,提高其生活质量具有重要意义。通过对人体运动(信号)的检测及多模态识别,可以实现与控制系统的交互。这