汉英实体翻译与实体对抽取技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:liminice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体翻译以及双语命名实体对的抽取,在统计机器翻译、跨语言检索等领域有重要作用,因而越来越受到研究人员的重视。由于是新兴的方向,命名实体翻译以及双语对应抽取技术还很不成熟,有许多问题需要研究解决。   本文首先设计了一个命名实体翻译获取的整体框架,将翻译和抽取有机地结合在一起,并重点研究了其中的机构名翻译以及双语可比语料中的命名实体对抽取方法。主要内容归纳如下:   (1)设计了一个汉英命名实体翻译与抽取结合的整体框架   在这个框架中,汉语命名实体通过翻译模块被直接翻译成对应的英文命名实体;或者,产生出一些翻译候选,然后通过网络检索模块对这些候选重新评估,得到符合大众习惯的正确英文命名实体。另一方面,也可以从互联网上获取双语语料(包括双语可比语料、中英文混合语料等),从这些语料中抽取出汉英命名实体对应,得到一个双语命名实体列表,来辅助翻译模块进行翻译。   (2)设计实现了一种规则约束下的汉英机构名翻译方法   这种方法针对汉英机构名的翻译特点提取了一系列基于关键词的翻译规则,然后将这些规则用到统计机器翻译的训练和解码当中。具体地,将翻译规则和其它一些统计模型融合在最大熵机器翻译模型的框架之下进行机构名翻译。这些统计模型包括:统计机器翻译中常用的4种短语翻译模型、短语惩罚模型、词汇映射模型、置换模型。实验显示,翻译规则在训练和解码过程中都起到了积极的作用,这种方法在各项评测指标上都优于另外两个baSeline系统。   (3)设计实现了一种基于多特征的可比语料库中命名实体对抽取方法   这种方法融合了命名实体内部以及外部的多种特征从可比语料库中抽取双语命名实体对,这些特征包括:音译特征、上下文特征、翻译特征和词长特征。在特征得分的计算过程中,本文充分利用了三种命名实体各自的特性,尤其在翻译特征得分的计算当中考虑了词语在翻译时位置上的对应关系。实验显示,内部特征和外部特征都在双语命名实体抽取过程中发挥了积极的作用,并且本文的翻译得分计算方法效果明显好于已有的不考虑词语位置的翻译得分计算方法。  
其他文献
随着国家节能减排力度的不断加大,电力企业作为我国一次能源的消耗大户,节能减排工作迫在眉睫。目前,我国电力供需矛盾已逐渐从供方市场向需方市场转变,在激烈的市场竞争下,电站只有不断提高机组的运行水平,降低发电成本,才能使电站利润最大化,因此,研究电站节能减排监管优化具有非常重要的意义。本文根据国家节能减排工作方案的要求和燃煤电站的特点,针对电站传统的单级小指标体系在电站管理工作中的不足,构建了厂级节能
移动机器人间的协调协作能力表现了多机器人系统的可靠性和健壮性。而多机器人之间为了实现良好的合作与资源共享,需要以机器人之间的通信作为架构支撑,因此,对分布式移动机
随着工业过程控制要求的不断提高,大幅工况变动愈加频繁,系统的非线性特性突显,因此需要不断深入对复杂系统控制问题的研究,其中,多模型方法就是一项处理非线性系统控制问题的重要
两轮机器人是根据倒立摆的平衡原理而产生的一种自平衡机器人,它不仅具有自平衡机器人的结构性与仿生性特点,同时其轮式结构设计又兼具轮式机器人的移动便捷与功能实用的优点
再制造是一种对废旧产品实施高技术修复和改造的产业,它针对处于生命周期末端的产品,在性能分析的基础上,进行再制造工程设计,采用一系列相关的先进制造技术,使再制造产品质量达到
微观交通仿真作为ITS策略的重要测试与评价平台,己广泛应用于道路规划、交通组织管理方案评价、交通控制优化配时、社会经济效益评价等诸多领域。而GIS-T(交通地理信息系统)作
目前,基于直接数字频率合成 (Direct Digital Frequency Synthesis简称DDS) 技术的任意波形发生器在设计上多采用FPGA结合微处理器芯片的形式。DDS部分功能由FPGA来实现,微处理
脑-机接口(Brain-Computer Interface,BCI)是一种全新的人机接口方式,它可以提供一种不依赖于人体外周神经系统及肌肉组织,建立在人与周围环境间信息交流与控制的新型通道。脑机
本文针对数字娱乐用户实际需求及其应用环境,围绕人机交互主体人的身体的局部和整体,研究了基于计算机视觉的快速人体特征提取与人体运动分析方法和技术,并应用这些技术与方案开
近年来,随着物联网(The Internet of Things)的概念提出和研究,无线传感器(WSN)再次成为新的研究热点。无线传感器网络涉及到多学科,包括传感器技术、无线通信技术、网络技术