中文文本的实体提及识别与共指消解

来源 :南京大学 | 被引量 : 0次 | 上传用户:xsb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指代大量地出现在自然语言文本中,它对于简化表达、衔接上下文起着重要的作用,文本的概念关联性在很大程度上就是通过指代关系来刻画的。指代消解已成为许多自然语言处理应用中的关键处理步骤,它的这一作用也使得它成为语言理解领域中的一个重要问题。 本文主要针对指代消解中的共指消解展开研究。现有的共指消解系统还不尽如人意。基于知识的方法鲁棒性差,不适用于带有噪音的文本处理;基于机器学习方法的总体性能还不理想,其中名词短语识别需要依赖许多难以获取的知识源,而确定名词短语之间关系时,采用的聚类机制还不完善,最近优先策略(link—first)和最佳优先策略(link—best)以及有监督机器学习方法在解决中文指代消解的研究方面,所采用的优先选择策略都只是独立地针对一对名词短语进行共指决策,实际上各对名词短语的共指决策之间不是相互独立的。 在对现有的共指消解方法研究的基础上,从实体提及(mention)的识别和共指消解两个方面,对汉语的共指消解进行了研究和算法设计与实现,主要工作包括: 1.设计了一个基于AIO模型的实体提及识别系统。采用最大熵模型作为系统分类器,由它给出文本中词序列的标记序列的分类决策,并使用基于beam—search算法的正反双向解码算法对词序列进行解码,从而不是仅仅依靠上下文信息进行分类决策,而是充分考虑了标记序列之间的相关性,从全旬的角度给出某一句话中词序列的分类决策。 2.提出了一种基于图和关联聚类算法的汉语共指消解算法。采用图对名词短语的指代消解问题进行建模,并使用关联聚类对图进行划分,从而不是孤立地对每一对实体提及分别进行共指决策,而是充分考虑了多个实体提及之间的相关性,从全局的角度实现对共指等价类的划分。其中,关联聚类问题的求解采用了首先进行线性规划松弛问题求解、然后再基于区域增长技术进行近似取整的近似求解算法。 3.在ACE中文语料上对实体提及识别和实体提及消解进行了两项实验,实验结果表明本论文所作的工作是有效的。
其他文献
近年来,随着网络技术的不断发展和网络数据的迅猛增长,用户对搜索引擎的要求也越来越高,希望对于搜索到的文件,不必安装相应的阅读软件,就可以打开并使用。 目前,为了解决这一问
视频中的异常检测是一项极具意义和挑战性的工作,不仅在日常的监控系统中有很大的应用价值,在计算机视觉中也是研究的重点,而现实生活中的监控场景大都是拥挤场景,例如车站,
面向Web Services的构件信息收集工具的设计与实现软件构件库为软件开发人员查找合适的构件提供了便利。目前软件构件库主要采用由构件开发者发布的方式来收集构件。而构件开
随着智能手机技术的发展,人们越来越多地把工作和生活的计算平台从传统的PC平台转移到移动平台。智能手机储存了大量的用户隐私,例如通信记录、位置信息等,因而成为攻击者的
量化的软件过程管理方法对于提高过程成熟度和软件产品质量起到了重要的作用,并且已经被业界广泛的接受。现有的方法存在下述问题:需要为每个过程独立的制定其度量策略,成本很高
随着Internet的快速发展和网络信息量的增长,Web信息已经成为当前人们生活必不可少的信息源。为了在Web这个大的信息库中查找、获取我们感兴趣的信息,我们通常的方式使用搜索引
随着P2P文件共享系统从以服务器为中心架构转变为弱中心或无中心的架构,传统的节点管理已经不能适应发展需求,因而导致了一些漏洞的产生。与此同时P2P的用户数量却在迅速增长,使
随着blog在全世界的流行,面向blog的Internet服务系统也越来越多。其中最常见的是blog搜索服务,也就是面向blog的垂直搜索引擎。尽管对blog的研究方兴未艾,但是很少有文献完整全
作为主流的分布式软件系统运行支撑平台,J2EE中间件封装了一组公共服务以提高分布应用的开发、部署、维护和演化的效率与质量。Internet的普及、中间件标准化的完善以及开源
随着嵌入式系统越来越广泛的使用,嵌入式系统中的数据存储和管理成为一个新的研究热点。Flash存储器拥有速度快,功耗低和价格便宜等众多优点,在嵌入式系统中被广泛用作数据存储