论文部分内容阅读
命名实体是用来标识一个客观存在的事物的词或短语,是信息表达的重要载体,用来表达文本的主要内容。近十几年来,中国的互联网信息产业发展非常迅速,大量的信息以电子文档的形式出现在人们面前,做为知识的载体,Web上的网页数据包含了各种各样的内容。面对海量的、大规模的、非结构化的语言文本信息,从中抽取相应的命名实体无疑能够很好地帮助理解网页中所蕴含的知识。命名实体识别任务中人名、地名、机构名、时间是最难识别的,本文的主要工作即是讨论这四类命名实体的识别,并将识别方法应用于Web网页,提取网页中的命名实体并标定其在网页中的位置。
本文首先对普通文档中命名实体识别的方案进行了探索。结合大量的文献论述了前人的相关工作,并从中总结各类命名实体的不同特点。通过分析不同类别命名实体的颗粒度特点,本文将基于字组合的简单命名实体和基于词组成的复杂命名实体分级进行处理,并在实验中发现,这样的处理方法方便对不同特点的命名实体分别加以不同的调整修正手段,提高最终的识别效果。本文以1998年《人民日报》语料库为训练文档,并借助中科院的分词系统对剔除标注的文档进行预处理。
在针对简单命名实体的识别上,本文通过特征字词触发相应的识别模块,主要工作有:建立了姓氏字库以及简单地名的关键字集合;设计了时间表示的提取规则并对语料库中的时间表示进行了提取;建立了简单人名以及地名左右邻接词汇与命名实体的互信息模型;应用自己设计的简单命名实体评价方法,根据实验数据选取相应的系数以及阈值,最终取得了不错的效果。
在针对复杂命名实体的识别上,本文的主要工作有:根据训练文档对复杂地名以及机构名建立隐马尔科夫模型并求解。提出了将机构名基于首词的词性进行分类,再进行训练识别的方法。该方法在实验中收到了较好的效果,尤其在召回率上更为明显。
为了提高从Web网页集合中抽取命名实体的效率,本文采取多线程的工作方式,以北大天网实验室的CWT200G网页集合为研究对象,对所有命名实体采用特征字词触发的方法。其中,复杂命名实体的特征字词全部从训练文档中得到。Web网页数据有高度的冗余性,相比训练文档,也包含更加丰富的语言现象。本文对识别出的简单命名实体进行了上下文模式的收集,并依据频度对简单人名地名各自提取排名在前150的模式,在返回结果里能够发现一些训练文档中没有的模式。为下一步的研究工作奠定了基础。