论文部分内容阅读
命名实体(Named Entity)最初是在MUC(Message Understanding Conference)上被提出的.根据MUC1997年名实体的定义,名实体包括三个子实体:实体名、时间表示语、数字表示语.其中实体名包括人名、地名、机构名;时间表示语包括日期短语和时间短语;数字表示语包括货币短语和比例值.名实体识别在问答系统、组块分词、信息检索、信息抽取等诸多信息处理领域中有着重要应用.怎样正确地识别和分类名实体是一项关键、困难的工作.国际上对于英文的名实体识别已经做了大量的工作,取得了一定的成效,中文名实体识别的研究还是处于起步阶段.用于名实体识别的分类方法有很多,如隐马尔科夫模型、支持向量机、最大熵模型等.将多个分类器的分类结果进行再处理的方法称为融合.目前常用的融合技术包括Voting,X-Val(Selection by Cross-validation),Grading,Bagging等.基于栈(Stacking)的分类器融合技术是一种新近提出来的融合方法.目前存在的融合技术如Voting,X-Val,Grading,Bagging等都可以通过选择合适的下一级分类器通过栈技术映射得到.该文我们对融合技术进行研究,并将其应用于名实体识别中.我们采用了两套方案来实现中文名实体识别系统.第一套是用基于转换的学习算法(transformation-based learning,TBL)来处理最大熵模型的名实体识别结果.这是基于栈的融合技术的一个具体应用.实验表明识别Fβ=1量度较最大熵模型提高了6-7个百分点.第二套方案是利用"增强法"(Boosting)的思想,通过重采样的策略,收集"最富信息"训练三个基于最大熵模型的分类器,最后再将各个分类器的结果进行投票处理,输出最后的分类结果.实验表明,这种方法的名实体识别Fβ=1量度较最大熵模型提高了3个百分点.我们由此可以看出,融合技术是一种提高分类精度的有效方法.