融合技术的研究及其在中文名实体识别中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lbsylh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体(Named Entity)最初是在MUC(Message Understanding Conference)上被提出的.根据MUC1997年名实体的定义,名实体包括三个子实体:实体名、时间表示语、数字表示语.其中实体名包括人名、地名、机构名;时间表示语包括日期短语和时间短语;数字表示语包括货币短语和比例值.名实体识别在问答系统、组块分词、信息检索、信息抽取等诸多信息处理领域中有着重要应用.怎样正确地识别和分类名实体是一项关键、困难的工作.国际上对于英文的名实体识别已经做了大量的工作,取得了一定的成效,中文名实体识别的研究还是处于起步阶段.用于名实体识别的分类方法有很多,如隐马尔科夫模型、支持向量机、最大熵模型等.将多个分类器的分类结果进行再处理的方法称为融合.目前常用的融合技术包括Voting,X-Val(Selection by Cross-validation),Grading,Bagging等.基于栈(Stacking)的分类器融合技术是一种新近提出来的融合方法.目前存在的融合技术如Voting,X-Val,Grading,Bagging等都可以通过选择合适的下一级分类器通过栈技术映射得到.该文我们对融合技术进行研究,并将其应用于名实体识别中.我们采用了两套方案来实现中文名实体识别系统.第一套是用基于转换的学习算法(transformation-based learning,TBL)来处理最大熵模型的名实体识别结果.这是基于栈的融合技术的一个具体应用.实验表明识别Fβ=1量度较最大熵模型提高了6-7个百分点.第二套方案是利用"增强法"(Boosting)的思想,通过重采样的策略,收集"最富信息"训练三个基于最大熵模型的分类器,最后再将各个分类器的结果进行投票处理,输出最后的分类结果.实验表明,这种方法的名实体识别Fβ=1量度较最大熵模型提高了3个百分点.我们由此可以看出,融合技术是一种提高分类精度的有效方法.
其他文献
随着互联网技术和应用的迅速发展,基于Web服务的分布式计算模式成为目前软件发展的一种重要趋势.在Web服务的应用中,常常需要处理应用相关的多个Web服务间的交互和组合过程,
医院的信息化,是当前传统行业信息化变革潮流中的重要部分。无论是2003年的非典疫情给医院管理和业务流程运作带来的挑战,还是人们对医疗服务的普遍性需求,都对医院通过信息化改
蒙特卡洛路径跟踪是绘制真实感图像的重要算法之一,它通过模拟光线在场景中的传播过程,采样图像平面来评估每个像素的颜色值。现已广泛应用于电影制作、游戏引擎和增强现实等领
中性束注入(Neutral Beam Injection,简称NBI)是托卡马克上对等离子体的外部辅助加热和维持的主要手段之一,具有加热效率高和物理机制清楚的优点。在建的EAST-NBI是国家大科学工
调度问题起源于产品规划、人力规划、计算机设计、时间表等问题。随着时间的推移,对调度问题的理论及其应用研究已经成为一项重要的研究领域。粗略地讲,传统的调度研究方法有两
影响图(Influencediagrams)已成为一个具有代表性的决策分析工具,关影响图计算方法的研究也吸引了越来越多的学者的兴趣.。 本文介绍了影响图和贝叶斯网的基本概念和原理,讨
Web服务是一种基于标准的应用集成方式,它可以将运行在Internet上的分布式应用集成在一起.Web服务具有与生俱来的动态特性和互操作性,它把一切都看作服务,这种服务可以通过消
该文的研究目标是在目前已有的研究成果基础上,提出一种面向对象的领域工程方法,并通过实际的使用对方法进行完善.该文提出的青鸟领域工程方法是基于面向对象方法的.青鸟领域
软硬件协同设计是一种新的设计方法.软硬件协同设计协调软硬件开发过程并行开展,一方面可以缩短设计周期,极大地提高设计效率;另一方面可以根据系统各个部分的特点和设计约束
软件Agent(Software Agent)和多Agent系统(Multi-Agent System,MAS)正在成为人工智能研究实用化和分布计算环境下软件智能化的重要技术,它们为建立面向分布计算的具有开放性