增强源语言表示的统计机器翻译

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hebehehe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,统计机器翻译已成为了自然语言处理领域最受关注的研究热点。机器翻译能够方便不同民族、不同国度的人之间进行沟通交流,有着广大的应用前景。然而,自动生成满足人们需求的翻译仍然是一个巨大的挑战,因此激励着研究人员继续研究和改进统计机器翻译技术。  纵观统计机器翻译的发展,在自然语言表示方面涌现了不同的翻译模型及相关研究工作。在源语言的表示上,机器翻译经历了词模型、短语模型,以及引领机器翻译快速发展的句法翻译模型,其中形式句法、成分树到串、依存树到串等基于源语言句法的研究工作一度成为了研究热点。最近,源语言的连续空间表示用于指导目标端译文生成的相关研究也在不断涌现。可见,在源语言表示的学习方面,有很大的研究空间和价值。  本文从增强源语言的表示切入,提出不同粒度、不同层次的增强源语言表示的方法,改进机器翻译建模,增强机器翻译效果。根据表示粒度的不同,本文主要将其分为两类:离散结构的表示和连续空间的表示。在离散结构的表示方面,本文提出文档信息指导的术语翻译增强模型和混合树到串翻译模型。在连续空间表示方面,本文提出动态编码源语言句子的神经网络联合语言模型。主要创新点如下:  1.文档信息指导的术语翻译增强模型  由于基于短语的模型和基于形式句法的模型中使用的短语是指连续的词语串,未能突出语言学意义上的短语对翻译的作用。因此本文提出术语翻译增强模型,在机器翻译通常接受的源语言句子最初的表示形式—“具有词语边界的串形式”基础上引入术语/多词表达等固定搭配的语言学短语表示。并针对术语的性质,利用文档信息对术语翻译进行建模:  对术语的整体性翻译建模,鼓励多词术语作为一个整体进行翻译。  对术语的翻译考虑多领域性质,同一个术语在不同的领域下可能采用不同的翻译,利用文档信息对不同领域下的术语翻译进行消歧。  对术语的翻译考虑多领域性质,统一领域下术语翻译的一致性强度可能与领域相关,因此对术语的领域翻译一致性进行建模。  通过改进术语翻译的效果,进而改进术语所在的句子、文档的整体翻译效果。  2.联合源端依存句法树和成分句法树的混合树到串翻译模型  基于语言学句法的模型,包含语言学句法知识。依存句法树能够简洁地描述句子中词语之间的长距离依赖关系,但是句法短语兼容性较差。成分句法树包含很多的句法短语节点,但是在表达句子中词语之间的长距离依赖关系方面不如依存句法树。这些不同的句法树结构各具优势,但未能结合起来充分利用。因此,本文提出融合源语言句子依存句法树和成分句法树两种句法结构的混合树到串翻译模型。以依存句法树为骨架,将成分句法树中的语言学短语节点信息标记到依存句法树中,设计混合树的表示形式,并建立混合树到串翻译模型。该混合树到串模型,在保持依存树到串翻译长距离调序优势的同时,增强语言学短语兼容性,提升翻译效果。  3.基于卷积神经网络源语言句子编码的联合语言模型  除了离散结构的表示,源语言连续空间表示的研究也成为了受瞩目的热点。连续空间表示在词语、短语、句子表示方面具有强大的能力。因此本文提出自动学习有助于预测目标端译文生成的源语言句子连续空间表示方法。具体的,本文使用卷积神经网络学习句子表示,借助卷积神经网络在翻译解码时动态地生成源语言句子的连续空间表示,进而借助深度神经网络学习联合源语言和目标语言的联合语言模型,用于衡量目标语言句子的生成概率。将该联合模型融入到统计机器翻译的解码过程中,提升翻译效果。
其他文献
功耗已经成为制约计算机系统发展的首要因素,对计算机系统整机及各软硬件部件功耗的准确测量与评价,是低功耗研究的基础。当前功耗测评领域主要包括两方面的挑战:(1)功耗基准测
目前随着整个社会信息化的快速发展,软件遗产系统所面临的环境变为开放、动态、多变,那么遗产系统的演化也要随着这种变化要求具有动态性和自适应性,作为保障软件演化质量的
随着国家新能源战略规划的出台,电动汽车迎来了快速发展的新机遇,电动汽车加电运营已经由设想逐渐变为现实。为了推动电动汽车规模化、产业化、商业化和市场化发展,在如今这
长期以来,制约铁路产业发展的一个重要原因是是铁路道口安全防护问题。在封闭式铁路改建中,铁路道口安全报警系统可以有效地缓解道口安全问题。现有的道口监控系统只可以将道口
P2P网络具备高扩展性、自适应性和高性价比的优势,一直是分布式计算机网络研究领域的重点关注内容,P2P-SIP是其中一大研究热点。传统的语音业务使用运营商部署的昂贵设备及固
随着经济的发展、生活水平的提高,人们的健康意识和健康理念逐渐增强,与此同时,人口老龄化进程加快,老年人常见病、慢性病的日常护理和治疗以社区和家庭为主,因此,对适合基层社区医
随着越来越多传统的社交和经济活动被搬到互联网上,数据中心的计算任务变得日益复杂,规模越来越大。数据中心的功能失效和性能失效成为了常态。另一方面,细粒度的数据采集工具产
故障诊断技术是保证数控机床安全可靠运行、提高用户服务质量的重要手段之一。国内外相关研究机构在数控机床故障诊断方面展开了广泛的研究,在数控系统自诊断和PLC技术等方面
矿区的有效监管是保证矿产资源有序开采的首要条件,而传统的人为监管的方法并不能确保监管的有效性,为此在矿区的监管中引入了智能监控。本文通过分析矿区监管的特点和违法的形
五轴数控加工经常用来加工各种复杂零件来提高加工精度和加工效率。刀轴矢量控制技术是影响五轴加工效果的一个关键因素,直接影响零件加工效率、加工精度和表面粗糙度。利用两