论文部分内容阅读
命名实体翻译和双语命名实体对齐旨在实现命名实体在两种语言之间的转换与对应,是机器翻译、跨语言信息检索等多语言信息处理领域的一项重要任务。尤其在机器翻译系统中,命名实体的翻译质量是影响翻译系统性能的重要因素之一。同时,双语命名实体对齐不仅可以生成双语命名实体词典以辅助翻译,而且直接影响到统计机器翻译训练过程中短语对抽取的质量。因此,命名实体翻译及对齐方法的研究对于提高机器翻译系统的性能至关重要,具有重要的理论意义和实用价值。
本论文从命名实体本身的特性出发,结合各种机器翻译方法,通过大量的数据分析和实验,对汉英命名实体翻译及双语实体对齐方法进行了深入的研究和探索。论文的主要工作归纳如下:
(1)在对命名实体翻译特点进行分析和归纳的基础上,提出了命名实体内部词汇对齐方法,并建立了命名实体翻译框架。
由于不同类别的命名实体具有其自身的翻译特点和规律,要达到较好的实体翻译效果,必须从各类实体的翻译特点出发,充分挖掘可利用的实体信息。本文基于大规模的汉英双语命名实体语料,分析了人名、地名和机构名的翻译特点,并提出了命名实体的内部词汇对齐方法:然后针对这三类实体的内部对齐信息(音译和意译规律等)进行了统计分析,比较了各类实体的翻译重点;在此基础上建立了命名实体翻译的整体框架。
(2)根据机构名的结构特点,提出了基于结构的汉语机构名翻译方法。
在所有命名实体中,机构名是粒度最大、组成结构最复杂、变化形式最多的一类实体。如何充分利用机构名的内在结构特点进行翻译是本论文研究的重点之一。首先,本文给出了一种“语块”定义,以语块为单位对机构名进行结构上的分解;然后根据其语义关系和位置规律将机构名划分为三类构成语块,并通过这种语块结构描述了机构名翻译的所有模式;最后,依照语块翻译的排序规律,采用层次化的同步上下文无关文法的推导过程实现了机构名的翻译。该方法在机构名翻译的词序调整方面有很大的优势,可以获得较好的翻译效果。实验证明,该模块加入到基于短语的统计机器翻译系统中后,有效地提高了翻译系统的性能。
(3)基于双语命名实体对齐的理论推导框架,实现了双语实体的三种对齐方式。在实验分析的基础上,提出了双语实体识别与对齐相结合的实现方法。
在双语实体对齐任务中,双语实体的识别效果与对齐性能密切相关。因此,有必要将双语实体识别过程和对齐过程放在同一个理论框架下,分析二者相互影响的因素。为此,本论文首先给出了双语实体对齐任务的理论推导,并通过一系列条件假设和问题转换,建立了双语实体对齐的三种任务,然后分别实现了这三种对齐方式。通过实验发现,双语实体的识别错误极大地限制了对齐性能的提高,但是普遍采用的对齐特征却无法有效地克服实体识别错误带来的消极影响。因此,综合分析和考虑各种存在的问题,本文提出了双语实体识别与对齐相结合的实现方法:引入修正对齐方法将双语实体识别和对齐两个过程有机地结合在一起。
(4)根据双语命名实体识别与对齐的特点,提出了基于翻译比率和类别约束的双语实体对齐方法。
通过大规模的语料分析,发现一个命名实体的翻译方式(音译或意译)与实体的类别密切相关,其中意译和音译之间的比例关系(本文作者定义意译方式占整体翻译的比例为翻译比率)在不同类别的实体之间差异很大。同时,每一个命名实体翻译对的类别应该是一致的。基于以上的分析,提出了一种基于翻译比率和类别约束的双语实体对齐模型,该模型包括基本对齐和修正对齐。其中,翻译比率和类别约束作为修正对齐中的关键因素,具有修正双语实体边界和类别的能力,体现了双语实体识别与对齐过程的结合与互助。实验证明了该对齐模型不仅显著地提高了汉英实体的对齐性能,而且有效提高了汉英实体识别的准确率和召回率,尤其对实体类别的判断能力有了较大的提高。
综上所述,本论文在命名实体翻译特点分析、汉语机构名的英译模型以及双语实体对齐方法等方面进行了大量的实验和深入的研究,显著地提高了汉语机构名翻译和双语实体对齐的性能,并有效地改善了机器翻译系统的性能。