基于Web的中文命名实体识别研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:dxc1989120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体是用来标识一个客观存在的事物的词或短语,是信息表达的重要载体,用来表达文本的主要内容。近十几年来,中国的互联网信息产业发展非常迅速,大量的信息以电子文档的形式出现在人们面前,做为知识的载体,Web上的网页数据包含了各种各样的内容。面对海量的、大规模的、非结构化的语言文本信息,从中抽取相应的命名实体无疑能够很好地帮助理解网页中所蕴含的知识。命名实体识别任务中人名、地名、机构名、时间是最难识别的,本文的主要工作即是讨论这四类命名实体的识别,并将识别方法应用于Web网页,提取网页中的命名实体并标定其在网页中的位置。   本文首先对普通文档中命名实体识别的方案进行了探索。结合大量的文献论述了前人的相关工作,并从中总结各类命名实体的不同特点。通过分析不同类别命名实体的颗粒度特点,本文将基于字组合的简单命名实体和基于词组成的复杂命名实体分级进行处理,并在实验中发现,这样的处理方法方便对不同特点的命名实体分别加以不同的调整修正手段,提高最终的识别效果。本文以1998年《人民日报》语料库为训练文档,并借助中科院的分词系统对剔除标注的文档进行预处理。   在针对简单命名实体的识别上,本文通过特征字词触发相应的识别模块,主要工作有:建立了姓氏字库以及简单地名的关键字集合;设计了时间表示的提取规则并对语料库中的时间表示进行了提取;建立了简单人名以及地名左右邻接词汇与命名实体的互信息模型;应用自己设计的简单命名实体评价方法,根据实验数据选取相应的系数以及阈值,最终取得了不错的效果。   在针对复杂命名实体的识别上,本文的主要工作有:根据训练文档对复杂地名以及机构名建立隐马尔科夫模型并求解。提出了将机构名基于首词的词性进行分类,再进行训练识别的方法。该方法在实验中收到了较好的效果,尤其在召回率上更为明显。   为了提高从Web网页集合中抽取命名实体的效率,本文采取多线程的工作方式,以北大天网实验室的CWT200G网页集合为研究对象,对所有命名实体采用特征字词触发的方法。其中,复杂命名实体的特征字词全部从训练文档中得到。Web网页数据有高度的冗余性,相比训练文档,也包含更加丰富的语言现象。本文对识别出的简单命名实体进行了上下文模式的收集,并依据频度对简单人名地名各自提取排名在前150的模式,在返回结果里能够发现一些训练文档中没有的模式。为下一步的研究工作奠定了基础。  
其他文献
运行在网络环境中的软件系统通常由分布在不同网络节点上的软件实体组成,并基于一定的异步通信协议进行分布式协同工作,实现各种软件功能。对于这样的复杂软件系统,一致性测试仍
随着计算机硬件体系结构的不断发展,多核集群逐渐成为当今高性能计算机的主流架构。在2010年11月的全世界500强排名中,82.8%的超级计算系统使用集群体系结构,并且绝大多数的系
随着高性能计算的发展,大规模科学计算往往需要处理TB级甚至PB级的数据,这就对高性能计算机的存储系统提出了较高的性能需求。分布式文件系统的发展和应用有效地解决了集群系
数字内容的阅读和播放是3G网络中重要的增值业务应用,为使这些数字内容的创作、分发和消费在可控方式下进行,防止数字内容的非法拷贝和传输,真正达到知识产权保护的目的,全球
随着智能移动终端平台的迅速发展以及第三代移动通信技术的逐步推广,移动互联网技术及其应用已经成为一个重要的研究领域。由于移动终端平台的特殊性,其设计原则和开发技术都
伴随城市化进程的加速和交通方式的多样化,人类移动也愈加频繁、快速、复杂。理解人群的移动行为,对于城市规划、交通管理、传染病控制等诸多社会经济问题具有重要意义。对于
自动人脸识别是计算机视觉和模式识别研究中最具挑战性和最活跃的研究课题之一。过去十年,人脸识别系统的性能得到了很大的提升。特别是基于统计学习的人脸识别方法取得了很大
讲故事已经被证明能够支持儿童的读写、听力、词汇能力及其它语言能力的发展。随着计算机技术的不断发展,信息技术逐渐引入儿童教育领域。如何更好地利用计算机讲故事还在研
随着时代的发展,信息的采集、传播的速度和规模达到空前的水平。面对极度膨胀的信息量,面对数据过剩的巨大压力,数据挖掘技术为从海量数据中快速准确获取有效信息提供了支持,
随着集成电路工艺的进步和计算机技术的发展,计算机系统的功耗逐步成为制约计算机技术进一步发展的瓶颈。为了解决计算机系统的功耗问题,各种功耗管理技术应运而生,成为学术界、