基于机器学习的汉语浅层分析研究

来源 :东北大学 | 被引量 : 0次 | 上传用户：yjyu2012

【摘要】

：

随着信息时代的到来和Internet的发展，信息处理能力成为信息处理领域的瓶颈问题，不同语种之间大量的信息交流更加大了问题的严重性。不同语言之间的翻译工作越来越迫切，并且工作

【作者】

：

谭咏梅

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2005年期

【关键词】

：

机器翻译机器学习汉语浅层分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息时代的到来和Internet的发展，信息处理能力成为信息处理领域的瓶颈问题，不同语种之间大量的信息交流更加大了问题的严重性。不同语言之间的翻译工作越来越迫切，并且工作量也越来越大。浏览外文网页则对即时自动翻译提出了要求。如何利用计算机高效率的信息处理能力突破不同语种之间的语言障碍，成为全人类面临的共同问题。机器翻译便是解决这个问题的有力手段之一。然而自然语言的歧义性一直是机器翻译难以攻克的难关，机器翻译的译文质量离人们想要达到的目标尚远。传统的KBMT系统需要庞大而复杂的规则库支撑。规则的来源是专家的知识，获取和维护耗时费力，又无法避免冲突，形成了知识获取的瓶颈。传统的以单词为最小处理单位的面向大众用户的机器翻译在翻译质量遭受批评的同时，以句子为处理单位的面向专业翻译人员的翻译记忆却取得了极大的成功。加大机器翻译中的翻译单元的粒度成为人们思考的新方向。机器翻译是应先理解了源语言再生成目标语言，还是只需尽量多地把源语言的信息传递到目标语中，也即机器翻译是否要进行深层分析与理解，一直是一个存在争议的问题。随着语料库语言学和机器学习的发展，通过机器学习从语料库中自动或半自动获取语言规则和翻译规则成为知识获取的新途径。语料库语言学力图从大规模真实文本中获取语言知识，以求得对于自然语言规律的更为客观的、准确的认识。它突破了KBMT中知识获取的瓶颈。 EBMT一个重要的特征在于其取消了KBMT中语言学规则的中心地位，强调使用实例数据和类比推理驱动翻译过程。EBMT中匹配的实例可以是双语段落对、句对、子句对，甚至是更小的片段对。粒度越大，歧义越小，但完全匹配的可能性也越小。粒度越小，完全匹配的可能性越大，但歧义也越大。使用机器学习方法来解决自然语言处理中的问题是当前研究的主流，国内外在这方面已做了很多有益的工作，本文的工作也是在这方面作了一些努力和尝试。所有的工作紧紧围绕基于机器学习的汉语浅层分析展开，构成了一个完整的体系。浅层分析的结果是一种语段，粒度介于句对和语词对之间，作为匹配实例应用于EBMT中可以起到消歧作用。在众多的机器学习方法中，本文主要研究了生成学习和判别学习两种框架下具有代表性的条件随机场(ConditionalRandomFields)机器学习方法和支持向量机(SurpportVectorMachines)机器学习方法。借鉴了英语chunk的定义，根据汉语自身的语言学特点，作者给出了汉语组块的定义，提出了基于机器学习的汉语浅层分析方法。其中包括： 1.给出了汉语组块的定义，并具体描述了如何从树库中抽取组块。考虑到汉语和英语是两种不同的语系，本文认为中文组块具有单一的语义核心，并且互相不嵌套的特点，即，句子中的每一个词语只能属于一个组块类型，并且每一种组块类型中都不含有其他类型的组块。本文使用Upenn中文树库作为语料，考虑到汉语和英语是两种不同的语系，为了表示整个短语结构，本文定义了下面10种汉语组块类型：基本动词短语VP，基本定冠词短语DP，基本形容词短语ADJP，基本量词短语QP，基本片段短语FRAG，基本名词短语NP，基本介词短语PP，由“LC”形成的基本短语LCP，基本副词短语ADVP，基本分类词短语CLP。其中某些组块与Upenn中文树库中的短语结构相同，而另外一些组块与Upenn中文树库中的短语结构却不尽相同，本文具体描述了如何从树库中抽取出10种类型的组块。 2.提出了基于条件随机场(CRFs)的汉语浅层分析方法。CRFs是一种判别学习(discriminativelearning)方法，是有向图模型的一种形式，在给定一个特定的观测序列下，在整个标记序列的联合概率上定义了一个单一的线性对数分布。通过单个状态将增大的或减小的概率和传递到它们的后继状态，使得这个单一的分布不需要对每个状态进行归一化，整个状态序列可以一起描述，从而克服了HMMs和MEMMs的标记偏差(labelbias)问题，而标记偏差的问题在汉语浅层分析中是个严重的问题。因此，作者提出了基于CRFs的汉语浅层分析方法。 3.提出基于支持向量机(SVMs)的汉语浅层分析方法。支持向量机是一种生成学习(generativelearning)方法，是一个两类分类器。其基本思想是：在训练数据中寻找一个能够将数据准确地分为两个类别的超平面，如果数据不是线性可分的，则将数据映射到一个高维空间，进而在高维空间中寻找一个能够将数据正确无误地分开的线性分割超平面，同时确保这个分割超平面能够具有很高的泛化性能。为了解决汉语浅层分析多分类任务，本文将基本的SVMs两类分类器扩展为多类别的SVMs分类器。 4.考察了one-against-rest和pairwise两种多分类器扩展方法和分析方向，即从左到右的前向分析(forwardparsing)或从右到左的后向分析(backwardparsing)，在基于SVMs的汉语浅层分析中，对汉语浅层分析性能的影响进行了研究。 5.考察了当前分析位置上下文窗口大小和将数据映射到高维空间的不同阶数的多项式核函数，在基于SVMs的汉语浅层分析中，对汉语浅层分析性能的影响进行了研究。 6.提出了基于SVMs+sigmoid的汉语浅层分析。在SVMs的多分类器扩展方法中，对于一个未知类别的样本，存在两个或多个分类器赋予它不同的类别，或没有一个分类器对该未知类别的样本预测出其所属类别的情形。在上述情形下很难决策该未知类别样本的所属类别。考虑到当前任何一个分类器的结果仅仅是全局决策的一个局部决策，其分类结果的好坏会影响到整个模型的性能。所以一个分类器仅仅是一个全局模型的子模型，其分类结果必须与全局模型的整个决策相结合，即，必须使用一个统一的模型来进行决策，从而保证整个分类过程的一致性。本文训练了额外的sigmoid模型来直接拟合后验概率p(class/input)，通过调整模型的参数来给出最好的后验概率输出，从而为SVMs多分类器扩展方法中难于决策的困境提供了一个有效的解决方法。

其他文献

基于多智能体协调的电网自动电压控制系统研究

电压不仅仅是电能质量重要指标之一，也是关系到大电网安全稳定运行的重要因素，近年来国际上几次大停电事故和电压有关系。如何使电力系统的电压调节设备进行实时自动协调控制，实

学位

智能体多智能体系统自动电压控制协调控制电网电压

通用多核集群并行编程与优化技术的研究

随着多核处理器体系结构的出现以及对称多处理机和集群体系结构的逐渐推广,出现了新型多核集群体系架构,因其性价比较高和可扩展性较好,而成为高性能计算领域的研究重点。多

学位

并行计算多核集群混合OpenMP/MPI多线程混合CG

本体在语义网格服务中的应用研究

　　本文结合这两种技术对本体在语义网格上的应用问题展开研究，主要集中于如何对网格服务的各种标准服务文档进行语义化，并将结果应用于网格服务描述过程中的本体智能匹配。主

学位

网格服务本体知识库语义转换匹配算法注释原型系统

网络流量的检测与分析

计算机网络技术的飞速发展,以及网络规模的不断扩大,导致了网络结构的日趋复杂化。因此,计算机网络管理已经成为了网络研究领域的热点,而对于基于TCP/IP协议的网络,简单网络

学位

简单网络管理协议管理信息库网络管理数据采集

嵌入式车载播放系统的设计与实现

随着数字信息技术以及网络技术的高速发展，汽车的自动化、智能化和网络化也被相应地被提上了日程。而车载播放系统作为汽车的一个不可分割的部分也必然面临着新的技术革命，将数

学位

嵌入式车载播放系统Flash文件系统

基于Directshow技术的流媒体直播系统的设计与实现

随着网络带宽的不断提高，音频、视频等具有丰富表现力的信息传播手段变得越来越流行。视频点播、网络电视、网上直播等应用也迅速发展，网络已经成为除电视之外的另一大信息发布

学位

流媒体视频编辑录播直播系统视频点播网上直播网络电视

Internet问答系统的实现与评测

Internet的飞速发展使得每个人都置身于一片信息的海洋。面对排山倒海的文字信息，搜索引擎成为人们检索信息的最主要工具。人们在搜索文档时，总会在心里怀着一些问题，即使是像Go

学位

问题回答系统信息检索语言处理搜索引擎

汽车转弯防抱死制动控制系统仿真研究

面对激烈的市场竞争，各汽车厂商都需要一套硬件在回路的仿真系统，以提高汽车防抱制动死系统(ABS)的性能，缩短研发周期，降低研发成本。本文选用转弯制动中的汽车作为控制对象，对该

学位

防抱死制动系统滑移率模糊控制双模控制嵌入式系统

联机手写蒙古文字识别技术的研究与实现

联机手写识别的根本任务是模式分类,即通过数字设备采集手写输入信号,从中提取输入特征,加以分类识别词典中的文字。但是由于手写体笔迹变动非常大,精确识别比较困难。特别是

学位

联机手写识别蒙古文字层次聚类DTWHMM

面向服务的应用描述语言及其支撑环境的关键技术研究

随着基于Intemet的分布式系统的不断发展，面向服务的计算(Service OrientedComputing)正逐渐成为构建基于Intemet应用的新的开发模式。服务(Service，如WebService或Grid Servic

学位

面向服务编程语言支撑环境访问模式

基于机器学习的汉语浅层分析研究

其他学术论文