基于半马尔科夫条件随机场的命名体识别及其关系抽取研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:lvsby2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和电子化办公的发展,出现了大量的文本资源。信息抽取技术可以帮助人们快速获取大规模文本中的有用信息。命名体识别与关系抽取是信息抽取的两个基本任务。本文在调研当前命名体识别和实体关系抽取中采用的主要方法的基础上,分别给出了解决方案。论文开展的主要工作有:   (1)从模型选择和特征选择两个方面总结了命名体识别及实体关系抽取的国内外研究现状,重点介绍用于命名体识别的统计学习方法以及用于实体关系抽取的基于核的方法。   (2)针对当前命名体识别中命名体片段边界的确定问题,研究了如何将Semi-Markov CRFs模型应用于中文命名体识别。这种模型只要求段间遵循马尔科夫规则,而段内的文本之间则可以被灵活的赋予各种规则。将这种模型用于中文命名体识别任务时,我们可以更有效更自由的设计出各种有利于识别出命名体片段边界的特征。实验表明,加入段相关的特征后,命名体识别的性能提高了4-5个百分点。   (3)实体关系抽取的任务是判别两个实体之间的语义关系。之前的研究已经表明,待判别关系的两个实体间的语法树结构对于确定二者的关系类别是非常有用的,而相对成熟的基于平面特征的关系抽取方法在充分提取语法树结构特征方面的能力有限,因此,本文研究了基于核的中文实体关系抽取方法。针对中文特点,我们探讨了卷积(Convolution)核中使用不同的语法树对中文实体关系抽取性能的影响,构造了几种基于卷积核的复合核,改进了最短路依赖核。因为核方法开始被用于英文关系抽取时,F1值也只有40%0左右,而我们只使用作用在语法树上的卷积核时,中文关系抽取的F1值达到了35%,可见核方法对中文关系抽取也是有效的。
其他文献
Web服务技术作为面向服务计算范型的主要实现技术,有效提高了异构环境下分布式应用的开发效率,降低了其开发成本。服务发现与选择作为Web服务技术体系中的关键技术,提高了软件复
模型驱动体系架构(MDA)和构件开发技术(CBD)都是有效提高软件复用的开发模式,但由于平台的异构性和易变性,使得构件开发在构件集成、组装及互操作方面困难重重,而MDA正是解决
卫星网络仿真是对卫星网络进行优化设计、性能分析、效能评估的有效途径。本文针对卫星网络的建模与仿真开展了如下工作:   围绕卫星网络的建模问题,本文在分析卫星网络组成
随着信息社会各个领域的发展,数据的采集和存储变得越来越重要。传统的数据库技术由于缺乏对时序关系的支持,不能有效地管理与时间相关的数据。时态关系模型的提出拓展了传统的
可计算性理论产生于对算法概念的数学研究,主要研究目标是可计算性对象的计算复杂性和不可计算对象的数学结构。本文研究了计算可枚举图灵度中的嵌入扩充的一个问题,证明了对任
以地球为中心的空间环境仿真系统中,大气效果的实时绘制对于系统的视觉效果以及仿真结果的真实性都起到重要作用。   大气散射是引起各种大气效果的主要原因,对其模拟是大气
本文在对现有网格资源发现方法进行分析的基础上,进一步结合了集中式与非集中式网格资源发现方法的优点,给出了一种具有较高资源发现性能的非集中式网格资源发现方发—树型网格
本论文依托课题组承担的空间信息服务系统预研项目,进行空间计算基本算法的并行化研究。重点研究了空间邻近问题中的“所有最近邻居问题”和“Delaunay三角剖分问题”,设计并实
最优路径问题是计算机科学、运筹学、工程设计等领域众多问题的基础。它的应用十分广泛,涉及网络路由、电路设计、交通运输、机器人运动规划、事务调度中关键路径的计算以及VL
随着计算机网络技术和信息技术的迅速发展,人们生产和搜集数据的能力得到了大幅度提高,同时也推动了数据库技术的极大发展。如何从海量的数据中提取有用的信息和知识为人类服