论文部分内容阅读
命名实体翻译以及双语命名实体对的抽取,在统计机器翻译、跨语言检索等领域有重要作用,因而越来越受到研究人员的重视。由于是新兴的方向,命名实体翻译以及双语对应抽取技术还很不成熟,有许多问题需要研究解决。
本文首先设计了一个命名实体翻译获取的整体框架,将翻译和抽取有机地结合在一起,并重点研究了其中的机构名翻译以及双语可比语料中的命名实体对抽取方法。主要内容归纳如下:
(1)设计了一个汉英命名实体翻译与抽取结合的整体框架
在这个框架中,汉语命名实体通过翻译模块被直接翻译成对应的英文命名实体;或者,产生出一些翻译候选,然后通过网络检索模块对这些候选重新评估,得到符合大众习惯的正确英文命名实体。另一方面,也可以从互联网上获取双语语料(包括双语可比语料、中英文混合语料等),从这些语料中抽取出汉英命名实体对应,得到一个双语命名实体列表,来辅助翻译模块进行翻译。
(2)设计实现了一种规则约束下的汉英机构名翻译方法
这种方法针对汉英机构名的翻译特点提取了一系列基于关键词的翻译规则,然后将这些规则用到统计机器翻译的训练和解码当中。具体地,将翻译规则和其它一些统计模型融合在最大熵机器翻译模型的框架之下进行机构名翻译。这些统计模型包括:统计机器翻译中常用的4种短语翻译模型、短语惩罚模型、词汇映射模型、置换模型。实验显示,翻译规则在训练和解码过程中都起到了积极的作用,这种方法在各项评测指标上都优于另外两个baSeline系统。
(3)设计实现了一种基于多特征的可比语料库中命名实体对抽取方法
这种方法融合了命名实体内部以及外部的多种特征从可比语料库中抽取双语命名实体对,这些特征包括:音译特征、上下文特征、翻译特征和词长特征。在特征得分的计算过程中,本文充分利用了三种命名实体各自的特性,尤其在翻译特征得分的计算当中考虑了词语在翻译时位置上的对应关系。实验显示,内部特征和外部特征都在双语命名实体抽取过程中发挥了积极的作用,并且本文的翻译得分计算方法效果明显好于已有的不考虑词语位置的翻译得分计算方法。