面向机器翻译的复述技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:X2000N
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,跨语言的交流与合作日益增多,导致人们对机器自动翻译的需求变得愈加强烈。然而目前的机器翻译生成的译文质量较低,存在大量漏译、错译,甚至完全不通顺等现象,很难满足用户的实际需求。因此,如何快速有效地提高机器翻译质量近年来成为了学术界和工业界共同关注的问题。  复述,是指在同一种语言内,在语义不变的前提下,对原始形式的不同表达。通过复述方法,可以对单词、短语,甚至是句子产生形式上的变化,从而实现某些特定的目标。近年来,复述作为一种底层技术,在自然语言处理的很多应用中展现了重要的作用。尤其在机器翻译领域,由于复述与机器翻译相比具有更广泛的获取来源,同时可以使用更丰富的语言特征,所以利用复述技术来提高机器翻译质量具有重要的实践意义。本文的主要工作是研究通过复述技术扩展机器翻译的双语训练语料以及改写输入句子的几种方法。对于前者,我们分别尝试了基于统计的复述模型和基于依存分析和句子生成的复述模型两种不同的复述方法;对于后者,我们则是从两个不同的角度,传统的机器翻译和目前互联网上比较流行的辅助翻译,研究了基于复述改写输入句子对最终译文质量的影响。  首先,本文通过基于统计的复述生成的方法对机器翻译的双语平行语料进行扩展,目的是解决机器翻译系统覆盖率不足的问题。方法对双语语料的源语言句子生成复述句,然后与对应的目标语言句子一起形成新的双语平行语料。在统计复述生成框架中,我们使用句子新颖度模型作为目标函数,目的是为机器翻译模型选择包含最多新信息的复述结果。同时,我们通过复述概率模型和语言模型来保证生成的复述句子的准确程度和流利程度。在最终的实验中,通过我们的方法改进的翻译模型,在不同规模的数据集上均显著地超过了目前主流的机器翻译系统。  其次,本文通过另一种基于依存分析与句子生成的复述方法,对机器翻译的双语平行语料进行扩展。首先对输入句子进行依存分析得到依存树,然后以依存树作为输入进行句子生成,取概率得分最高并且与原句不同的结果,就得到了一个与原句语义相同但单词顺序不同的复述句子。通过这种方法扩展双语平行训练语料,可以在不引入额外语料资源的前提下,更深层次地挖掘双语平行训练语料中包含的语言学现象,进而提高训练得到的翻译模型对输入文本的覆盖程度。  再次,本文提出了一种新的利用反向翻译从机器翻译的双语平行训练语料中抽取复述规则的方法。在不借助额外复述资源的前提下,我们对双语平行语料的源语言部分和目标语部分的“目标语言——源语言”翻译结果进行比较,从而获取复述规则。得到的复述规则可以涵盖单词、短语和句子结构三种级别的复述变化。通过应用这些复述规则来改写机器翻译系统的输入句子,可以让句子向机器翻译训练语料覆盖的方向产生复述变化,从而使得输入句子变得更容易被翻译,最终更容易获得高质量的译文。  最后,本文研究了利用复述技术对例句检索式辅助翻译系统的输入查询进行改写的方法。由于目前的自动机器翻译质量无法满足用户的实际需求,所以例句检索作为一种人机结合的辅助翻译方式近年来在互联网上非常流行。用户输入查询检索相关例句,然后通过学习高质量的例句从而拼凑出理想的翻译结果。在本文中,我们通过复述搭配和统计复述生成两种方法对用户的输入进行改写,改写的目的有两个,一个是将不正确或者不地道的句子改写成为正确并且流利的形式,另一个目的是对查询进行扩展,从而匹配更多的例句,提供更丰富的检索结果。首先,本文提出了一种复述搭配的方法,针对性的解决翻译中最容易困惑的搭配问题。然后,我们通过统计复述生成方法,在短语级别上对用户查询进行改写和修正。实验表明,我们的方法为用户查询提供了高质量的改写与扩展,最终提高了匹配的例句数量,增强了用户体验。  总之,本文在改进现有复述方法的基础上,针对机器翻译的特点提出了几种新的复述方法,并且应用这些方法从扩展双语平行语料和改写输入句子两个不同的角度入手,最终提高了机器翻译及辅助翻译的质量。本研究取得了一些初步的研究成果,期待能对复述领域和机器翻译领域的研究者产生一些借鉴意义。
其他文献
随着科学技术以及互联网的不断发展,全球信息总量爆发性增长,人们进入信息时代,海量的数据不断产生,信息超载问题越来越严重。这些数据信息数量庞大,增加了人们获取所需信息的困难
机车检修是机务段组织运输生产活动的基础,是机车正常运行的有力保障,对提高机车运用效率有着重要的意义,因此提高机车检修质量和管理水平,强化机车检修质量过程控制成为保证机车安全生产活动和提高机车运用效率的关键,因此建立和健全现代化的机车检修系统是一项重大的任务。机车检修系统是为了满足机车检修生产规范化、程序化、信息化的需要,以检修生产管理和检修生产过程为主线,达到机车检修质量控制为目的,为领导决策提供
语义Web服务是一种具有良好前景的技术,它采用机器可理解方式来描述Web服务自身的功能,从而提供Web服务之间的互操作。随着面向服务计算体系架构(Service Oriented Architecture
[摘 要] 高校教师具有信息化教学能力是互联网时代教师职业能力发展、学生学习方法转变以及高等教育教学改革的必然要求。在信息化教学理念、教师信息化素养、信息化教学环境以及高校体制机制等方面,影响和制约了高校教师信息化教学能力的发展。高校应从转变信息化教学理念、构建信息化教学环境、完善教师信息化教学能力培训、建立教师信息化教学制度保障、形成信息化教学文化等多个方面,改善和提高教师信息化教学能力。  
为了加强和改进新形势下高校思想政治工作,加强师生间的交流、提升学生工作质量、完善思想政治工作质量体系,南京医科大学康达学院自2015年4月起开始实施辅导员“七个一”工
[摘 要] 为了提高高校数学师范专业学生的师范技能,同时也为了满足《普通高等学校师范类专业认证实施办法(暂行)》的通知中关于实践教学的要求,本文从高校数学师范专业师范技能训练存在的主要问题出发,结合陕西理工大学数学与应用数学专业(师范)目前的师范技能实践开展情况,构建了数学师范专业师范技能训练体系,并对师范技能训练体系的实施展开研究。   [关键词] 师范专业认证;数学师范专业;师范技能训练  
[摘 要] 基于MOOC平台的在线开放课程为学习者提供了丰富的教学资源和素材,有利于创新教学模式,推动信息技术与教学改革的融合创新。目前,还存在内涵建设不够、技术支持不足等方面的问题。因此,有必要整合资源,集中力量,打造一支校校、校企、校地多维融合的复合型团队;线上线下,互为补充,依托在线开放课程建设创新教学模式;取长补短,着力建设新型的智慧在线开放课程。   [关键词] MOOC;在线开放课程
深化教育教学改革是新时期高等教育发展的强大动力,提高人才培养质量是高等教育的核心任务,培养出有品德、有学问、有行动力的高质量人才是中国特色社会主义大学的重要使命.
随着民众与国家对产品质量的日益重视,企业产品的质量直接影响到企业的生存与发展。然而,产品质量的评价需要大量数据对其进行支持和验证,很多大型企业都建立起了质量检测与
在图挖掘领域,动态演化图挖掘与分析的价值受到了越来越多的重视。数据挖掘的首要任务是获取并存储数据,但现有的图存储与查询平台都是针对静态图的,并不能记录图的时序演化过程