中文实体提及识别及其共指消解关键技术研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:jjjuuu52107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用的深入和互联网的发展,人们可获得的信息量急剧增加,如何自动有效地从网络资源中找到用户真正需要的信息成为当前的迫切需求。文本内容抽取提供了一种对文档实体等信息进行有效提取、结构化的手段。文本内容抽取的关键技术包括实体提及的识别及其共指消解。   与西方语言相比,中文缺乏明显的语法提示特征,因此中文实体提及识别与共指消解更为困难。本文以中文自由文本为研究对象,在最大熵框架下,对以名称型实体提及为主的实体提及识别及其共指消解关键问题开展了深入研究。主要研究工作和创新点如下:   (1)将尾字提示特征引入到中文地名和机构名一体化名称型实体提及识别框架中。提出了对常规提示词具有良好泛化能力、又可有效避开分词错误的尾字特征。这些特征对识别难度较大的地名和机构名两类名称型提及具有良好的提示作用。在863和SIGHAN语料上的实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价,显著提高各类名称型提及的识别性能,特别是机构名的识别精度。   (2)提出了基于感知器和邻近标签语义约束的条件随机场模型快速训练算法。针对条件随机场模型训练复杂度高、收敛慢的问题,提出了一种改进的快速算法。首先通过引入小规模用字特征(主要为地名和机构名的尾字特征)降低特征的规模,然后通过感知器算法获得更合理的初始参数集,最后通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格(trellis)搜索空间。在中文863评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文名称型实体提及识别精度的同时,总训练时间减少了近40%。   (3)提出了基于分类信心重排序的中文实体提及共指消解全局最优逼近算法。针对常规分步共指消解框架中分类器缺乏全局信息的不足,提出了根据分类信心来调整共指链生成(聚类)顺序的新方案。该方案依据分类信心对全体提及配对进行排序,优先保证可靠的分类结果对提及进行聚集或分离,使得聚类过程向全局最优逼近。实验表明,分类信心的引入,在多个学习框架下显著改善了系统的整体消解性能。
其他文献
在多Agent系统中,正如人类社会一样,通信是交互和社会组织的基础。如果没有通信,一个Agent仅仅是封闭的个体。Agent之间的动态关系通过相互发送消息来体现,通信就是采用这种方式
在关于移动机器人的诸多研究领域中,机器人自定位是十分关键的技术,是实现机器人自主运动和其他任务的基础,而且涉及领域广泛,有很多难点有待解决,因而是一个具有重要研究价值的课
本文旨在进行高等级安全操作系统研发的技术探索,尤其针对隐蔽信道分析和系统架构设计两大关键难题。在安全系统研发和隐蔽信道分析的工作实践基础上,形成了本文另一部分研究主
应对大规模软件系统的复杂性从而提高其正确性是软件工程研究的一个重要目标。形式化方法提供了描述和分析系统的行为和特征、检验和证明系统性质的理论和方法。研究开发面向
虚拟机技术最早出现在20世纪60年代的IBM370主机,利用这项技术,能够在大型机上创建多个“虚拟”操作系统。但随着小型机和微型机的出现,该项技术曾一度失去其优越性因而被人
随着信息技术的飞速发展,人类正在进入以网络为主的信息时代,基于Internet开展的电子商务已逐渐成为人们进行商务活动的新模式,越来越多的人通过Internet进行商务活动,电子商务的
设备布局问题在实际生产和理论研究中存在多年,并且产生了许多相关的变体和相应的解决方案。单行设备布局作为一种典型的设备布局形式,被广泛研究。它旨在将固定数量的设备合
无线传感器网络是一种由大量的集成传感器、数据处理单元和无线通讯模块的节点组成的以数据为中心的无线自组网络,其目的是协作感知、采集和处理网络覆盖区中各种环境或监测
随着图像处理应用的发展,人们对高分辨率图像的需求越来越大。高分辨率图像不但能给人们提供清晰的照片,它还能为许多应用分析提供非常重要的细节信息。由于当前成像系统获得图
随着Intemet的普及,传统的GIS逐步从单机的“信息孤岛”步入网络的海洋,WebGIS逐步进入人们的日常生活。经过数年的发展,WebGIS的功能更加丰富,不再是简单的在线地图浏览、下载,还