论文部分内容阅读
随着信息时代的到来和Internet的发展,信息处理能力成为信息处理领域的瓶颈问题,不同语种之间大量的信息交流更加大了问题的严重性。不同语言之间的翻译工作越来越迫切,并且工作量也越来越大。浏览外文网页则对即时自动翻译提出了要求。如何利用计算机高效率的信息处理能力突破不同语种之间的语言障碍,成为全人类面临的共同问题。机器翻译便是解决这个问题的有力手段之一。
然而自然语言的歧义性一直是机器翻译难以攻克的难关,机器翻译的译文质量离人们想要达到的目标尚远。传统的KBMT系统需要庞大而复杂的规则库支撑。规则的来源是专家的知识,获取和维护耗时费力,又无法避免冲突,形成了知识获取的瓶颈。
传统的以单词为最小处理单位的面向大众用户的机器翻译在翻译质量遭受批评的同时,以句子为处理单位的面向专业翻译人员的翻译记忆却取得了极大的成功。加大机器翻译中的翻译单元的粒度成为人们思考的新方向。
机器翻译是应先理解了源语言再生成目标语言,还是只需尽量多地把源语言的信息传递到目标语中,也即机器翻译是否要进行深层分析与理解,一直是一个存在争议的问题。
随着语料库语言学和机器学习的发展,通过机器学习从语料库中自动或半自动获取语言规则和翻译规则成为知识获取的新途径。语料库语言学力图从大规模真实文本中获取语言知识,以求得对于自然语言规律的更为客观的、准确的认识。它突破了KBMT中知识获取的瓶颈。
EBMT一个重要的特征在于其取消了KBMT中语言学规则的中心地位,强调使用实例数据和类比推理驱动翻译过程。EBMT中匹配的实例可以是双语段落对、句对、子句对,甚至是更小的片段对。粒度越大,歧义越小,但完全匹配的可能性也越小。粒度越小,完全匹配的可能性越大,但歧义也越大。
使用机器学习方法来解决自然语言处理中的问题是当前研究的主流,国内外在这方面已做了很多有益的工作,本文的工作也是在这方面作了一些努力和尝试。所有的工作紧紧围绕基于机器学习的汉语浅层分析展开,构成了一个完整的体系。浅层分析的结果是一种语段,粒度介于句对和语词对之间,作为匹配实例应用于EBMT中可以起到消歧作用。在众多的机器学习方法中,本文主要研究了生成学习和判别学习两种框架下具有代表性的条件随机场(ConditionalRandomFields)机器学习方法和支持向量机(SurpportVectorMachines)机器学习方法。借鉴了英语chunk的定义,根据汉语自身的语言学特点,作者给出了汉语组块的定义,提出了基于机器学习的汉语浅层分析方法。其中包括:
1.给出了汉语组块的定义,并具体描述了如何从树库中抽取组块。考虑到汉语和英语是两种不同的语系,本文认为中文组块具有单一的语义核心,并且互相不嵌套的特点,即,句子中的每一个词语只能属于一个组块类型,并且每一种组块类型中都不含有其他类型的组块。本文使用Upenn中文树库作为语料,考虑到汉语和英语是两种不同的语系,为了表示整个短语结构,本文定义了下面10种汉语组块类型:基本动词短语VP,基本定冠词短语DP,基本形容词短语ADJP,基本量词短语QP,基本片段短语FRAG,基本名词短语NP,基本介词短语PP,由“LC”形成的基本短语LCP,基本副词短语ADVP,基本分类词短语CLP。其中某些组块与Upenn中文树库中的短语结构相同,而另外一些组块与Upenn中文树库中的短语结构却不尽相同,本文具体描述了如何从树库中抽取出10种类型的组块。
2.提出了基于条件随机场(CRFs)的汉语浅层分析方法。CRFs是一种判别学习(discriminativelearning)方法,是有向图模型的一种形式,在给定一个特定的观测序列下,在整个标记序列的联合概率上定义了一个单一的线性对数分布。通过单个状态将增大的或减小的概率和传递到它们的后继状态,使得这个单一的分布不需要对每个状态进行归一化,整个状态序列可以一起描述,从而克服了HMMs和MEMMs的标记偏差(labelbias)问题,而标记偏差的问题在汉语浅层分析中是个严重的问题。因此,作者提出了基于CRFs的汉语浅层分析方法。
3.提出基于支持向量机(SVMs)的汉语浅层分析方法。支持向量机是一种生成学习(generativelearning)方法,是一个两类分类器。其基本思想是:在训练数据中寻找一个能够将数据准确地分为两个类别的超平面,如果数据不是线性可分的,则将数据映射到一个高维空间,进而在高维空间中寻找一个能够将数据正确无误地分开的线性分割超平面,同时确保这个分割超平面能够具有很高的泛化性能。为了解决汉语浅层分析多分类任务,本文将基本的SVMs两类分类器扩展为多类别的SVMs分类器。
4.考察了one-against-rest和pairwise两种多分类器扩展方法和分析方向,即从左到右的前向分析(forwardparsing)或从右到左的后向分析(backwardparsing),在基于SVMs的汉语浅层分析中,对汉语浅层分析性能的影响进行了研究。
5.考察了当前分析位置上下文窗口大小和将数据映射到高维空间的不同阶数的多项式核函数,在基于SVMs的汉语浅层分析中,对汉语浅层分析性能的影响进行了研究。
6.提出了基于SVMs+sigmoid的汉语浅层分析。在SVMs的多分类器扩展方法中,对于一个未知类别的样本,存在两个或多个分类器赋予它不同的类别,或没有一个分类器对该未知类别的样本预测出其所属类别的情形。在上述情形下很难决策该未知类别样本的所属类别。考虑到当前任何一个分类器的结果仅仅是全局决策的一个局部决策,其分类结果的好坏会影响到整个模型的性能。所以一个分类器仅仅是一个全局模型的子模型,其分类结果必须与全局模型的整个决策相结合,即,必须使用一个统一的模型来进行决策,从而保证整个分类过程的一致性。本文训练了额外的sigmoid模型来直接拟合后验概率p(class/input),通过调整模型的参数来给出最好的后验概率输出,从而为SVMs多分类器扩展方法中难于决策的困境提供了一个有效的解决方法。