中文网页中人物实体的指代消解技术及其实现研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：tianjuyy

【摘要】

：

指代是自然语言中常见的语言现象，大量出现在日常对话和书面记录中。由于互联网技术的不断发展，Web上出现了数以万记的网页，这些网页的内容大多是以自然语言的形式描述的，其中包

【作者】

：

段孟成

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2008年期

【关键词】

：

中文网页指代消解自然语言信息抽取内容挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

指代是自然语言中常见的语言现象，大量出现在日常对话和书面记录中。由于互联网技术的不断发展，Web上出现了数以万记的网页，这些网页的内容大多是以自然语言的形式描述的，其中包含了大量的指代。随着Web挖掘研究的日益广泛，指代消解在信息抽取、内容挖掘等领域的应用越来越多，尤其是在实体属性抽取，实体关系发现与分析以及人物实体踪迹追踪等研究中，呈现出非常重要的作用。本文工作主要是针对中文网页中的人物实体，利用统计的方法进行指代消解。与其他研究相比，本文有以下方面的特点：首先，处理中文文本，针对英文中的指代消解研究很多，但对于中文中的研究比较少，而中文相对英文在词法语法上都有非常大的不同，本文工作中的中文人名性别识别以及中文依存语法分析都是为中文指代消解所做的工作；其次，处理网页文本，前述研究多是以纯文本为研究对象，而网页相对于纯文本，还有网页代码，利用这些信息可以帮助进行指代消解，再次利用互联网上网页众多的特点，建立一个人物实体专有名词的知识库，对专有名词指代进行消解。本文详细介绍了中文指代消解系统CARP的设计思路和实现技术，对系统进行了评测，对涉及到的问题进行了探讨。

其他文献

感知的计算模型及其应用

自从20世纪90年代以来，各国纷纷制定脑科学研究的长远计划，越来越多的科研资源被投入到脑科学的研究中。没人能够否认，对人脑认知功能及其神经机制进行多学科、多层次的综合研究

学位

视觉感知贝叶斯网络认知计算模型人脸识别脑科学

跨域资源共享平台中应用接入模型研究与实现

中国教育与科研计算机网跨机构统一认证和资源共享基础设施(CARSI)项目旨在通过提供跨机构的统一身份认证为CERNET用户搭建一个跨域资源共享平台。本文是CARSI项目的研究内容

学位

跨域认证统一授权资源共享应用接入模型系统整合访问控制机制

自组织网络中基于道路网格的查询子系统的设计与实现

随着Ad-hoc网络的快速发展以及研究的深入，Adhoc网络中的数据管理与共享已经成为当前研究的一个热点。为了能够从巨大的Adhoc网络中获取我们感兴趣的信息，我们要从Adhoc网络中

学位

车载Adhoe网络道路网格查询处理数据结构系统设计

一种DDR-Ⅱ内存控制器模块的物理验证策略

物理验证是芯片流片前的最后一道流程，用于确保芯片正常、正确工作，在集成电路设计流程中占有重要地位。随着集成电路工艺水平和设计技术的发展，集成电路的规模越来越大，复杂度越

学位

内存控制器物理验证验证策略芯片流片集成电路设计设计流程

量子密钥分发中信息协调协议的改进

在经典密码学中，无论是对称密码系统或非对称密码系统，其系统的安全性都要依赖于密钥的保密性，有的加密体制还需要依赖于问题的计算复杂度，这使得一些现在看来足够安全的加密方法

学位

量子密钥分发信息协调汉明码协议级联协议参数优化

互联网寻址关键技术研究——多语种域名、关键词及对等网寻址

随着互联网应用的发展，互联网寻址技术领域先后出现和经历了域名服务、关键词服务、Enum、Handle等。这些寻址技术都是基于Clinet/Server类型的，在管理和解析服务上都是集中式

学位

互联网寻址对等网寻址多语种域名关键词服务体系结构Admin算法

分布式应用中带上下文约束的访问控制模型研究与实践

随着Internet发展的深化以及Web2.0时代的到来，越来越多的企业和组织将它们的各种业务系统转移到Web上来。基于Web的企业级应用的分布式、开放性的体系结构一方面使得系统的使

学位

上下文约束RBAC模型Web应用访问控制模型体系架构系统设计

二维矩形装箱问题研究及其在图集排版中的应用

二维矩形装箱问题(2-DimensionalRectangularPackingProblem，2DR-PP)属于典型的组合优化问题，在工业领域有着广泛的应用，如新闻组版、布料切割、金属下料等。理论上，该问题属于NP

学位

矩形装图集排版组合优化混合算法遗传算法

开放式P2P存储平台Upstore的设计与实现

P2P存储系统具有可扩展性好，容错性高等优势，是近年来学术界的研究热点。但是由于P2P存储系统的复杂性高，搭建起来比较困难，使得系统并没有随着研究发展而流行起来。尤其是在广域

学位

存储系统广域网机房系统存储网络对等网络存储平台

三维人体建模中的点云孔洞修补

三维人体建模在服装定制、虚拟现实、电子游戏、影视特效等领域中具有重要的应用价值。在基于立体视觉的三维人体模型重建过程中，由于相机视角与遮挡等原因，获取到的点云数据往

学位

三维人体建模孔洞修补三维重建点云迭代排斥模板变形

中文网页中人物实体的指代消解技术及其实现研究

其他学术论文