机器翻译系统融合方法研究与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:gym510
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,统计机器翻译技术得到了快速的发展,许多基于不同范式的统计翻译模型被相继提出,如基于短语的统计翻译模型、基于句法的统计翻译模型等等。每一种模型都有它自身的优点和弱点,如何通过有效的方法从多个机器翻译引擎的输出结果中抽取出有用信息,融合多个翻译引擎的优点,得到最终的高质量翻译结果,对于提高整个机器翻译系统的译文质量至关重要。因此,开展机器翻洋系统融合方法的研究具有重要的理论意义和应用价值。   本论文在词汇级别系统融合的框架下,以汉英和英汉机器翻译系统为实验平台,对系统融合方法进行了深入研究和实践。论文的主要工作和创新成果归纳如下:   1.提出并实现了一种基于词调序的翻译假设对齐方法   单语言句子对齐是词汇级别系统融合方法中重要的一步。本论文提出了一种基于词调序的翻译假设对齐方法。该方法不同于现存的基于编辑距离的词错误率(WER)方法和翻译错误率(TER)方法,而是直接将翻译假设中需要调序的语块移动到正确的位置。其基本思路是:首先,寻找翻译假设间所有公共的连续语块并用变量将它们分别进行替换;然后,对精简后的翻译假设进行局部对齐并查找交叉对齐,根据交叉对齐情况,把翻译假设中的词序调整到正确的位置;最后,使用动态规划算法对齐两个词序一致的翻译假设。在新闻翻译领域和口语翻译领域的实验表明,该方法能够显著地提高译文质量。   2.对比研究了基于不同融合层次的系统融合方法   在机器翻译中,有三种不同层次的系统融合方法,包括句子级别系统融合方法、短语级别系统融合方法、词汇级别系统融合方法。本论文分别在口语翻译领域和新闻翻译领域的语料上,比较了这三种不同层次的系统融合方法的性能。实验结果表明,词汇级别系统融合方法能深层次的融合各种语言知识,对翻译质量的提高最大,同时融合性能最稳定。   3.对比研究了基于汉字和基于词汇的汉语译文质量评价方法及系统融合方法   在中文信息处理中,词通常被看作一个基本的处理单元。然而,汉字同样可以作为基本的处理单元。在机器翻译的译文自动评价和系统融合任务中,目前还没有相关工作来比较基于词的方法和基于汉字的方法的性能。为此,本论文研究了汉语译文的自动评价和系统融合方法。实验表明,基于汉字的自动评价方法和人工评价之间的相关性好于基于词的自动评价方法。对于汉语译文的融合,基于汉字的方法统计显著地优于基于词的方法。论文对该现象进行了深入的分析。   4.实现了基于Web服务的在线统计机器翻译系统   结合Web服务网络通讯方式的优势和统计机器翻译系统的特点,本论文建立了基于Web服务的在线统计机器翻译系统。该系统通过Web服务技术来实现远程终端客户机和本地Web服务器之间的网络通讯,并通过网络套接字来实现Web服务器和机器翻译服务器之间翻译文本信息的发送和接收。实验表明,该方法能有效地组织多台统计机器翻译引擎,使它们协调工作,并能改善在线统计机器翻译系统的响应速度和用户并发数。   综上所述,本论文提出了一种基于词调序的翻译假设对齐方法、在多个语料上分析比较了不同级别系统融合方法的性能,分析研究了汉语译文质量评价及系统融合中基于汉字的方法和基于词的方法的性能,同时,设计实现了一种基于Web服务的在线统计机器翻译系统。这些工作为进一步深入研究统计机器翻译奠定了良好的基础。
其他文献
现代工业过程朝着规模化、大型化、复杂化方向发展。对于现代工业生产过程而言,发生任何一个微小的故障都极有可能会造成巨大的经济损失以及人员伤亡。确保生产过程安全运行,对
现代社会中,人们的跨语言交互需求日益增多,计算机辅助的跨语言交互系统成为研究者们关注的热点。然而,由于系统处理自然语言的能力不足而产生的系统错误严重影响了系统性能,
热障涂层是航空发动机叶片隔热材料的重要组成部分。由于传统的检测方法不能满足对检测的精度和安全性要求,本文采用红外热波无损检测技术对热障涂层缺陷进行检测。针对采用红
无人驾驶和增强现实是两个热门的研究方向,并已实现了初步的商业化。对无人驾驶来说,图像深度估计能够显著降低无人驾驶的硬件成本和应用门槛;对增强现实来说,图像深度估计能够
水面无人机器人(水面无人艇,Unmanned Surface Vehicle/Vessel,USV),广泛用于海洋环境实时监测、资源探测、海洋灾害预警和防治等多个领域。研究和开发水面机器人对于海洋及国防
高空作业车是一种将工作人员举升到空中指定位置进行安装、维修作业的工程车辆,按臂架结构型式,分为伸缩臂式、折叠臂式和混合臂式三种。由于作业车臂架结构中轻质长臂杆的广泛
20世纪90年代,脉冲耦合神经网络(Pulse Coupled Neural Network—PCNN)作为一种新型的神经网络得以发展。PCNN有着生物学背景,它的神经元模型是因为模拟视觉神经细胞活动而得
随着计算机和网络技术的飞速发展,现代服务业逐渐成为全球经济增长的新引擎。作为现代服务业重要组成部分,信息服务业也正迎来一个高速发展时期。截至2010年,我国的信息服务
在以往的工业生产过程中,对生产线上待加工或待装配物体往往以纯机械方式进行排序或装配。该方式结构复杂,容易出现拥堵,生产柔性低,大大影响了生产效率。针对这一难题,急需有效的
上肢作为我们人体最灵活、也是最为复杂的运动执行部件之一,在大脑皮层、基底神经节、小脑、脊髓等各级神经子系统的控制下可以完成各种有意识或是无意识的动作(例如抓取、摆臂