中文网页中人物实体的指代消解技术及其实现研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:tianjuyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指代是自然语言中常见的语言现象,大量出现在日常对话和书面记录中。由于互联网技术的不断发展,Web上出现了数以万记的网页,这些网页的内容大多是以自然语言的形式描述的,其中包含了大量的指代。随着Web挖掘研究的日益广泛,指代消解在信息抽取、内容挖掘等领域的应用越来越多,尤其是在实体属性抽取,实体关系发现与分析以及人物实体踪迹追踪等研究中,呈现出非常重要的作用。 本文工作主要是针对中文网页中的人物实体,利用统计的方法进行指代消解。与其他研究相比,本文有以下方面的特点:首先,处理中文文本,针对英文中的指代消解研究很多,但对于中文中的研究比较少,而中文相对英文在词法语法上都有非常大的不同,本文工作中的中文人名性别识别以及中文依存语法分析都是为中文指代消解所做的工作;其次,处理网页文本,前述研究多是以纯文本为研究对象,而网页相对于纯文本,还有网页代码,利用这些信息可以帮助进行指代消解,再次利用互联网上网页众多的特点,建立一个人物实体专有名词的知识库,对专有名词指代进行消解。 本文详细介绍了中文指代消解系统CARP的设计思路和实现技术,对系统进行了评测,对涉及到的问题进行了探讨。
其他文献
自从20世纪90年代以来,各国纷纷制定脑科学研究的长远计划,越来越多的科研资源被投入到脑科学的研究中。没人能够否认,对人脑认知功能及其神经机制进行多学科、多层次的综合研究
中国教育与科研计算机网跨机构统一认证和资源共享基础设施(CARSI)项目旨在通过提供跨机构的统一身份认证为CERNET用户搭建一个跨域资源共享平台。本文是CARSI项目的研究内容
随着Ad-hoc网络的快速发展以及研究的深入,Adhoc网络中的数据管理与共享已经成为当前研究的一个热点。为了能够从巨大的Adhoc网络中获取我们感兴趣的信息,我们要从Adhoc网络中
物理验证是芯片流片前的最后一道流程,用于确保芯片正常、正确工作,在集成电路设计流程中占有重要地位。随着集成电路工艺水平和设计技术的发展,集成电路的规模越来越大,复杂度越
在经典密码学中,无论是对称密码系统或非对称密码系统,其系统的安全性都要依赖于密钥的保密性,有的加密体制还需要依赖于问题的计算复杂度,这使得一些现在看来足够安全的加密方法
随着互联网应用的发展,互联网寻址技术领域先后出现和经历了域名服务、关键词服务、Enum、Handle等。这些寻址技术都是基于Clinet/Server类型的,在管理和解析服务上都是集中式
随着Internet发展的深化以及Web2.0时代的到来,越来越多的企业和组织将它们的各种业务系统转移到Web上来。基于Web的企业级应用的分布式、开放性的体系结构一方面使得系统的使
二维矩形装箱问题(2-DimensionalRectangularPackingProblem,2DR-PP)属于典型的组合优化问题,在工业领域有着广泛的应用,如新闻组版、布料切割、金属下料等。理论上,该问题属于NP
P2P存储系统具有可扩展性好,容错性高等优势,是近年来学术界的研究热点。但是由于P2P存储系统的复杂性高,搭建起来比较困难,使得系统并没有随着研究发展而流行起来。尤其是在广域
三维人体建模在服装定制、虚拟现实、电子游戏、影视特效等领域中具有重要的应用价值。在基于立体视觉的三维人体模型重建过程中,由于相机视角与遮挡等原因,获取到的点云数据往