基于层次短语的统计机器翻译方法的研究和实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:ruinx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流畅而全面的沟通一直是人类的梦想,语言不通是实现这个梦想面临的最大难题,机器翻译应运而生。自从二十世纪四、五十年代起,至今日,机器翻译的研究已经经历过近六十年的时间。从最初的火热研究到接下来十几年的惨淡经营,直至最近二十年的复兴,机器翻译研究的步伐始终没有停止。   随着语料库的建设和计算机技术突飞猛进的发展,对机器翻译的研究,从最初基于规则的方法发展到基于实例的方法和基于统计的方法。目前,由于统计知识的充分应用、机器学习方法的完善以及大规模语料库的全面建设,基于统计的机器翻译方法已经成为了机器翻译领域的主流方法。   就统计机器翻译而言,最难克服的问题就是不同语言之间语序的不一致性。为了解决这个问题,人们先后提出了三种研究方法,基于词的方法、基于句法的方法和基于短语的方法。其中基于短语的方法又成为了统计机器翻译的研究重点。基于短语的方法把短语作为基本翻译单元,从而可以捕捉到一些常见的翻译现象,如习惯用语等。但是短语本身没有结构信息,故缺乏全局层级上的调序能力。为了改进这一点,本文重点研究层次短语方法。本文的内容分为四个部分:   1.详细介绍统计机器翻译方法的基本原理、处理流程、评价体系和基于词、基于句法和基于短语的统计机器翻译方法。   2.介绍词对齐方法的主流方法,并详细阐述作者提出的两种改进。一种方法是利用有监督的机器学习方法,对词对齐的N-Best结果组合优选。   另一种方法是构建Bootstrapping框架,自动生成词典,并充分利用词典改进词对齐结果。   3.构建基于层次短语的机器翻译系统。重点介绍系统的基本原理,构建过程中层次短语到产生式规则的推导和利用CYK算法进行解码的过程。   4.作者提出的具有调序特征的“的”字结构短语,分析并对机器翻译系统进行相应的改进。
其他文献
近年来,Web Services及其相关的SOA(Service—Oriented Architecture,缩写为SOA)技术获得广泛应用,通过集成以Web Services为代表的软什服务来构造面向服务的软件系统(Service—
随着互联网的快速发展,Web数据规模以几何级数增长。大规模Web主题分析,是面向海量Web数据,通过主题发现、综合摘要等算法,提取关键主题词和摘要段落,对Web大数据进行整体把握的过
随着电子信息技术和计算机网络的飞速发展,系统安全问题受到越来越多的重视。网络攻击、蠕虫病毒和黑客等名词已经频繁地出现在各种杂志和视频中。由于程序设计语言本身的缺陷
随着无线网络和移动通信技术的发展,手机已经成为集上网、游戏、录音、摄像、存储等功能于一体的视听终端。同时手机向智能化方向发展,导致潜在的移动网络安全问题逐渐显露。
无线传感器网络是由许多具有低功率无线收发装置的传感器节点组成,它们从不同环境区域监测收集周边环境信息并传送到基站进行处理。自传感器网络研究起步以来,传感器节点的能量
软件开发是智力密集型产业,人力资源在软件开发中扮演着极其重要的角色,不同的人在相同的设备上,可以生产出质量和功能完全不同的产品,其生产效率甚至可以相差数十倍,Boehm的COCOM
数值模拟是计算科学的重要组成部分,基于结构化网格的离散方法在数值计算方法中占有重要的位置,其热点计算stencil计算是高性能计算领域的七个主要模式之一。stencil计算的计算
组合公钥系统是一种基于标识的公钥管理方案。组合公钥系统通过公私钥因子的组合生成新的公私钥对,可以对大规模密钥进行集中的生产和管理,具有效率和实施上的优越特性。本文针
由于通过网络召开视频会议在成本和效率上的优势,视频会议系统在商业银行等大型企业获得了迅速的推广和应用。视频会议的音视频录像和相关资料是企业的重要信息资源。高效的
无线射频识别(Radio Frequency Identification)技术和下一代互联网协议IPv6技术的出现使得人们朝思暮想构建一个在任何时间,任何地点都能获取任何物品信息的“物联网(Internet o