面向文本组块获取的机器学习方法的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:ti110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从50年代初机器翻译课题的提出至今,自然语言处理的研发历史至少也有50年了,其间经历了从以通过自省方式学习符号文法和手工编写规则为主要方法的“理性主义”到日益强调以对真实文本数据的统计分析和经验知识归纳为主要方法的“经验主义”。这种趋势还同计算机处理能力不断提高和文本数据积累不断增大密切相关。尊重真实文本语言已成为当前各种信息处理技术的一个基本立场和出发点。 经验主义方法的复兴一方面是由于理性主义方法一直无法摆脱知识瓶颈问题的困扰,但更为重要的是,正如(Armstrong&Warwick1993)指出的,经验主义方法提供了解决自然语言处理中长期存在的问题的方法,这些问题归纳为以下四个方面:(1)语言知识的自动获取。各种相关的语言知识可以自动或半自动的从语料中获取,而不是来自语言专家的人工知识编码。 (2)语言现象的覆盖范围。在给定领域或应用的前提下,能够解释所有的语言现象。 (3)健壮性。对于真实数据中包含的噪音和在一些特定模型下无法解释的现象,仍然能够很好的适应。 (4)可扩展性。可以很容易地将系统移植到新的领域或新的任务中去。 最近几年,机器学习的研究不断的蓬勃发展,原因是多方面的,正如(Dietterich1997)指出的,归于以下两个方面:(1)各种独立的研究团体,包括研究符号机器学习,计算学习理论,神经网络,统计和模式识别的团体开始注意到了对方,并进行了广泛的合作。 (2)机器学习技术应用到很多新的领域,如知识发现,语言处理,机器人控制,组合优化,和一些传统的问题,如语音识别,人脸识别,手写体识别,医疗诊断等。 将机器学习技术和自然语言处理联系起来,是基于这样一个事实,所有的自然语言处理问题都可以被描述成以下两种分类问题之一(Daelemans1995):(1)消歧。给定一组可能的类别和以属性和值表示的上下文信息,判断在该上下文环境下,所属的正确类别。 (2)切分。给定一个目标和上下文信息,判断在该上下文环境下,是否存在目标的边界信息以及哪类边界信息。 当然,复杂的语言处理问题(句法分析)可以通过分解成一系列上述问题。正是基于这样一个事实,本文的工作以文本组块获取作为应用背景,探讨了各种机器学习算法的实现过程以及性能比较。在有指导的学习方法中,分别对统计的方法如HMM,符号的方法如TBL,MBL,Winnow,以及其他的方法如SVM,组合分类器等进行了深入地分析和实践,在半指导的学习方法中,对co-training方法进行了尝试。 首先给出了组块分析体系和形式化定义,并将组块识别问题看成一种分类问题,为应用各种机器学习方法提供了一个学习框架。 在有指导的学习方法中,首先对传统的HMM进行了改进,提出了增益的HMM来构造更为准确的模型。利用转换函数将各种上下文信息导入训练模型中,在提高模型描述能力的同时,保持了与原模型一致的训练和标注过程。实验结果表明,无论汉语还是英语组块识别,新模型均比原模型有很大的提高。 接着探讨了SVM算法实现细节以及性能分析。SVM算法是目前公认的最好的文本分类算法之一。在本文应用各单分类器的组块识别结果中,SVM也取得了最好的结果。在对多项式核函数各个阶次的比较发现,SVM在高维特征空间的确表现了良好的泛化能力,在与增益的HMM比较发现,SVM在小样本统计模式识别方面表现出特有的优势。我们还着重讨论了直推式SVM和多类识别算法。 在此基础上,提出了基于stacking算法的组合分类器模型。组合分类器方法是近几年机器学习领域的一个热点,该方法由于可以取得比单分类器更好的性能而日益受到研究人员的重视。我们构造了两层叠加式框架结构,将SVM,TBL,Winnow,MBL四种分类器进行组合,并与基于voting算法的组合分类器方法进行了比较,基于stacking算法的组合模型无论在准确率还是召回率方面都取得了更好的结果。 我们尝试半指导机器学习方法co-training方法。半指导机器学习方法是有指导和无指导机器学习两者的一个折中办法,它的原则是:在不牺牲性能的前提下,尽量多的使用未带标数据。在具体的组块识别过程中,分别从概率分布信息和上下文特征两个角度构造两个分类器,利用小规模的带标语料,对大规模的未标注语料进行标注。在标注过程中,将标注一致的语料加入到带标语料,并对两个分类器进行反复训练,直到没有新的带标语料产生。 最后,提出了基于词对齐的双语组块对齐算法,利用人工完成的词对齐结果和英语组块识别结果,进行汉语组块识别和双语组块对齐。
其他文献
信息网格是利用网格技术实现信息的共享、管理和提供信息服务的系统。本文结合铁路信息网格的研究,讨论了在具有层次结构的信息网格资源空间模型中的虚拟视图维护问题。铁路
产品数据管理(PDM—Product Data Management)定义为以软件技术为基础,以产品为核心,实现对产品相关的数据、过程、资源一体化集成管理的技术。PDM覆盖了产品生命周期内的全
随着IP宽带技术的发展和广泛应用,网络上多媒体信息和实时任务的数量与日俱增。Internet已逐步由单一的数据传送网络向数据、语音、图像和实时任务等多媒体信息的综合传输网
寄存器分配是编译后端优化中的重要技术,寄存器分配需要决定在程序执行时,哪些值(包括变量,临时量和大的常量)放在寄存器中会更有利。由于物理寄存器相对于内存单元具有数量
数据中心是支撑云计算的基础架构,巨大的电能消耗导致日益严重的能耗问题。利用虚拟化技术,数据中心将计算资源、存储资源和网络资源进行抽象,形成统一的虚拟资源池,按照云租户资
当今的世界正处于一场信息革命之中,随着数据库技术的发展和应用,人们积累的数据越来越多,企业普遍出现了"被数据淹没,却饥饿于知识"的现象.于是以数据仓库技术为基础的联机
信息网格是利用网格技术实现信息资源的共享、管理和提供信息服务的系统。本文结合中科院计算所织女星信息网格计划的研究工作,研究了信息网格的事务处理机制。织女星信息网
随着物流的发展,物流信息系统作为物流的神经中枢而存在。因此有效地进行物流信息的分布式处理显得非常重要。而随机库存作为物流的重要组成部分,就更有必要进行分布式信息处理
随着医学图像临床应用的广泛发展,以及图像归档与通信系统PACS(PictureArchivingandCommunicationSystem)的出现,开发适合医学影像的压缩编码技术已成为热点研究课题之一。由于
网络处理器作为一种面向网络应用的协议处理器,由于其能够同时满足高性能和灵活性两方面的要求,正受到越来越广泛的应用。本文主要讨论基于网络处理器的防火墙安全过滤的设计