论文部分内容阅读
流畅而全面的沟通一直是人类的梦想,语言不通是实现这个梦想面临的最大难题,机器翻译应运而生。自从二十世纪四、五十年代起,至今日,机器翻译的研究已经经历过近六十年的时间。从最初的火热研究到接下来十几年的惨淡经营,直至最近二十年的复兴,机器翻译研究的步伐始终没有停止。
随着语料库的建设和计算机技术突飞猛进的发展,对机器翻译的研究,从最初基于规则的方法发展到基于实例的方法和基于统计的方法。目前,由于统计知识的充分应用、机器学习方法的完善以及大规模语料库的全面建设,基于统计的机器翻译方法已经成为了机器翻译领域的主流方法。
就统计机器翻译而言,最难克服的问题就是不同语言之间语序的不一致性。为了解决这个问题,人们先后提出了三种研究方法,基于词的方法、基于句法的方法和基于短语的方法。其中基于短语的方法又成为了统计机器翻译的研究重点。基于短语的方法把短语作为基本翻译单元,从而可以捕捉到一些常见的翻译现象,如习惯用语等。但是短语本身没有结构信息,故缺乏全局层级上的调序能力。为了改进这一点,本文重点研究层次短语方法。本文的内容分为四个部分:
1.详细介绍统计机器翻译方法的基本原理、处理流程、评价体系和基于词、基于句法和基于短语的统计机器翻译方法。
2.介绍词对齐方法的主流方法,并详细阐述作者提出的两种改进。一种方法是利用有监督的机器学习方法,对词对齐的N-Best结果组合优选。
另一种方法是构建Bootstrapping框架,自动生成词典,并充分利用词典改进词对齐结果。
3.构建基于层次短语的机器翻译系统。重点介绍系统的基本原理,构建过程中层次短语到产生式规则的推导和利用CYK算法进行解码的过程。
4.作者提出的具有调序特征的“的”字结构短语,分析并对机器翻译系统进行相应的改进。