汉英命名实体翻译及对齐方法研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:ehuer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体翻译和双语命名实体对齐旨在实现命名实体在两种语言之间的转换与对应,是机器翻译、跨语言信息检索等多语言信息处理领域的一项重要任务。尤其在机器翻译系统中,命名实体的翻译质量是影响翻译系统性能的重要因素之一。同时,双语命名实体对齐不仅可以生成双语命名实体词典以辅助翻译,而且直接影响到统计机器翻译训练过程中短语对抽取的质量。因此,命名实体翻译及对齐方法的研究对于提高机器翻译系统的性能至关重要,具有重要的理论意义和实用价值。   本论文从命名实体本身的特性出发,结合各种机器翻译方法,通过大量的数据分析和实验,对汉英命名实体翻译及双语实体对齐方法进行了深入的研究和探索。论文的主要工作归纳如下:   (1)在对命名实体翻译特点进行分析和归纳的基础上,提出了命名实体内部词汇对齐方法,并建立了命名实体翻译框架。   由于不同类别的命名实体具有其自身的翻译特点和规律,要达到较好的实体翻译效果,必须从各类实体的翻译特点出发,充分挖掘可利用的实体信息。本文基于大规模的汉英双语命名实体语料,分析了人名、地名和机构名的翻译特点,并提出了命名实体的内部词汇对齐方法:然后针对这三类实体的内部对齐信息(音译和意译规律等)进行了统计分析,比较了各类实体的翻译重点;在此基础上建立了命名实体翻译的整体框架。   (2)根据机构名的结构特点,提出了基于结构的汉语机构名翻译方法。   在所有命名实体中,机构名是粒度最大、组成结构最复杂、变化形式最多的一类实体。如何充分利用机构名的内在结构特点进行翻译是本论文研究的重点之一。首先,本文给出了一种“语块”定义,以语块为单位对机构名进行结构上的分解;然后根据其语义关系和位置规律将机构名划分为三类构成语块,并通过这种语块结构描述了机构名翻译的所有模式;最后,依照语块翻译的排序规律,采用层次化的同步上下文无关文法的推导过程实现了机构名的翻译。该方法在机构名翻译的词序调整方面有很大的优势,可以获得较好的翻译效果。实验证明,该模块加入到基于短语的统计机器翻译系统中后,有效地提高了翻译系统的性能。   (3)基于双语命名实体对齐的理论推导框架,实现了双语实体的三种对齐方式。在实验分析的基础上,提出了双语实体识别与对齐相结合的实现方法。   在双语实体对齐任务中,双语实体的识别效果与对齐性能密切相关。因此,有必要将双语实体识别过程和对齐过程放在同一个理论框架下,分析二者相互影响的因素。为此,本论文首先给出了双语实体对齐任务的理论推导,并通过一系列条件假设和问题转换,建立了双语实体对齐的三种任务,然后分别实现了这三种对齐方式。通过实验发现,双语实体的识别错误极大地限制了对齐性能的提高,但是普遍采用的对齐特征却无法有效地克服实体识别错误带来的消极影响。因此,综合分析和考虑各种存在的问题,本文提出了双语实体识别与对齐相结合的实现方法:引入修正对齐方法将双语实体识别和对齐两个过程有机地结合在一起。   (4)根据双语命名实体识别与对齐的特点,提出了基于翻译比率和类别约束的双语实体对齐方法。   通过大规模的语料分析,发现一个命名实体的翻译方式(音译或意译)与实体的类别密切相关,其中意译和音译之间的比例关系(本文作者定义意译方式占整体翻译的比例为翻译比率)在不同类别的实体之间差异很大。同时,每一个命名实体翻译对的类别应该是一致的。基于以上的分析,提出了一种基于翻译比率和类别约束的双语实体对齐模型,该模型包括基本对齐和修正对齐。其中,翻译比率和类别约束作为修正对齐中的关键因素,具有修正双语实体边界和类别的能力,体现了双语实体识别与对齐过程的结合与互助。实验证明了该对齐模型不仅显著地提高了汉英实体的对齐性能,而且有效提高了汉英实体识别的准确率和召回率,尤其对实体类别的判断能力有了较大的提高。   综上所述,本论文在命名实体翻译特点分析、汉语机构名的英译模型以及双语实体对齐方法等方面进行了大量的实验和深入的研究,显著地提高了汉语机构名翻译和双语实体对齐的性能,并有效地改善了机器翻译系统的性能。
其他文献
定位跟踪作为无线传感器网络关键问题之一,引起研究机构的广泛关注。移动机器人具有和环境主动交互的功能,在许多场合能够替代人类自动执行某些日常性与危险性任务。无线传感
随着网络技术的飞速发展和科技的不断进步,各种各样的智能电子设备不断涌现。他们之间的互操作性研究随之成为关注的焦点。IEC61850的出台为智能电子设备之间的互操作性提供
“装甲车辆压缩空气系部件自动测试装置”项目来源于2005年总装综合计划部维修改革项目。本测试系统是为装甲车辆压缩空气系部件的性能试验和九种部件的性能测试而设计的,其
电容层析成像(ECT)和电阻层析成像(ERT)是电学层析成像的两个主要分支,具有非侵入、无辐射、结构简单、成本低、适用范围广、响应速度快、安全性能好等优点,在工业多相流参数
在当前的信息时代中,大量的高维数,复杂结构数据不断涌现,而且对机器自动分析和处理数据的要求越来越高。人们希望机器可以处理各种复杂的任务。而传统机器学习中,以二分类为主的
学位
可靠性的研究作为系统工程研究的一个重要内容,在各个领域中应用很多,电力通信网的可靠性就是其研究的一个分支。随着电力通信网承载着大量的电力生产和管理业务,对其可靠性
无线传感器网络(WSN,Wireless Sensor Networks)是当前在国际上备受关注的、涉及多学科高度交叉、知识高度集成的前沿热点。本文结合家庭健康监护的应用课题,研究和设计一种基
交流电机是当代社会中为生产和人民生活提供动力的重要机械。本论文主要研究交流电机的智能控制问题。由于交流电机自发明以来得到广泛应用,对交流电机的控制问题早已有了许多
随着人类生产及生活水平的提高,世界能源消费量大幅度增长,引发了多次能源危机。由于能源的紧缺以及常规化石燃料所带来的环境污染等一系列严重问题,可再生能源逐步成为常规
随着机器人技术的发展,机器人能力不断提高,其应用领域也在不断扩展,研究人员考虑通过多个机器人的协调与协作来完成单个机器人无法或难以完成的工作。要使多个机器人构成的系统