面向半结构和无结构文本的实体关系抽取关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：tommy8248

【摘要】

：

实体关系抽取是从网络半结构和无结构文本中抽取实体属性关系和实体之间关系的技术，是信息抽取领域重要的基础任务和难点问题之一，对大规模知识库构建、问答系统、语义搜索等应

【作者】

：

刘洋

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2014年期

【关键词】

：

信息抽取实体关系抽取半结构文本无结构文本弱监督异构网络数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

实体关系抽取是从网络半结构和无结构文本中抽取实体属性关系和实体之间关系的技术，是信息抽取领域重要的基础任务和难点问题之一，对大规模知识库构建、问答系统、语义搜索等应用具有潜在的应用前景。因此，实体关系抽取技术得到了工业界和学术界的广泛关注。然而，海量异构的网络数据以及表达多样性的网络语言，也对实体关系抽取技术提出了很大的挑战。　　论文研究面向大规模网络半结构和无结构文本的实体关系抽取技术，主要研究成果如下:　　1、为了应对弱半结构文本模板不一致的问题，本文提出了一种利用网站级模板和属性知识的弱半结构文本实体属性关系抽取方法。首先，利用基于图的随机游走算法来获得高置信度的模板和属性，构成网站级知识;然后，利用获得的网站级知识来识别每篇文章中的弱半结构文本区域，进而从中抽取属性-属性值对，并与相应实体组成实体属性关系。实验结果表明，在面对弱半结构文本时，相比于没有利用网站级知识的抽取方法，本方法显著地提升了抽取性能，增强了其鲁棒性。　　2、无结构文本弱监督关系抽取存在训练数据回标噪声问题，当前许多方法利用多实例模型对训练数据回标噪声进行建模，但多实例模型的假设在很多时候得不到满足，造成抽取性能欠佳。为了应对以上问题，本文提出了一种基于显著特征发现的弱监督实体关系抽取方法。首先，利用回标产生的训练数据的特征将满足回标条件的样本同不满足回标条件的样本联合起来;然后，基于主题模型对联合样本中特征和潜在关系进行建模，以发现特征的明确度，再将明确度和表征特征所含信息量的信息度进行融合，获得特征的显著性;最后，将显著性当作特征值学习实体关系抽取模型，以使显著性高的特征比噪声特征获得更大的权重。实验结果表明，本方法在Held-out评价和人工评价的实验中，其结果均好于以前的方法。　　3、传统弱监督实体关系抽取方法使用的特征由四种实体类型构成，这样的粗粒度实体类型常常不能够区分两个实体间的实体关系。为了应对以上问题，本文提出了一种基于细粒度实体类型特征发现的无结构文本弱监督实体关系抽取方法，通过发现细粒度实体类型来增强特征的区分性。首先，利用细粒度实体类型同维基百科文章的对应关系得到训练数据，自动训练细粒度实体类型分类器;然后，利用搜索引擎返回结果扩展实体指称，并通过学习得到的分类器预测扩展后实体指称的细粒度实体类型;最后，将细粒度实体类型融入到实体关系抽取模型，并研究比较了三种融入方法—替换方法、扩展方法和选择方法。实验结果表明，相较于原抽取模型，本文扩展方法在聚合抽取实验中获得了更加平滑的正确率/召回率曲线—它代表更加稳定的系统，并在句子级抽取实验中大幅度提升了准确率。　　

其他文献

基于反例制导的电网拓扑N-k问题研究及技术拓展

在现代社会,电网系统的稳定性对于大众的生产生活起着至关重要的作用。如何对其稳定性进行分析自然也成为了相关领域一个重要问题。而在各种因素分析当中,电网拓扑结构对于其

学位

N-k问题反例制导SMT编码ⅡS反馈

草绘三维建模相关技术研究

作为计算机辅助建模的重要方式，草绘三维建模一直是计算机图形学领域一个非常有挑战性的问题，其研究目标是在对草绘图形识别和解析的基础上，根据人类视觉规则和对象领域知识并利

学位

草绘图形三维建模绘制方式模型多样性语义分类

数据仓库的设计与实现

数据仓库技术目前是数据库技术领域研究的热点,它为业务智能系统(BusinessInteligenceSystem)和数据挖掘的开发提供了数据基础.该文简单回顾了数据仓库发展的历史,提出了一个

学位

数据仓库维粒度元数据操作型系统发展趋势

基于寄存器上下文干扰的ROP攻击防御技术

JIT-ROP攻击利用内存泄露漏洞,可攻破基于细粒度地址空间随机化的ROP防御方案。因此,相关研究提出了对程序执行上下文进行随机干扰的ROP防御方案。Isomeron通过对程序控制上

学位

面向返回的编程地址空间随机化寄存器上下文代码片段应用程序二进制接口动态插桩

自相似网络业务研究中的仿真技术

该文首先详细介绍了系统性能评价和仿真技术,对该课题组自主开发的离散事件仿真系统JRTSS进行了详细的说明.作者参与了RTSS的改进及面向Web的版本JRTSS的开发工作.该仿真软件

学位

系统性能评价计算机仿真自相似业务FARIMA重要事件采样呼叫准入控制

企业资源计划(ERP)系统及其二次开发

企业资源计划ERP是一种将包含了销售、定货、供货、计划、生产和分销的整个供应链集成在内的关于制造型软件的理论.该文从ERP的基本原理入手,着重阐述了ERP的核心思想--供应

学位

企业资源计划供应链开放企业体系企业过程创新

税务稽查选案综合评估系统的研究

该文结合现有综合评估的特点,结合作者的应用开发实践,对税务稽查选案综合评估系统的构建进行了研究.综合评估系统包括指标值获得、指标归一化、权重设计和综合评估模型四部

学位

税务稽查综合评估指标参数指标值指标计算公式

基于PC的中文化网络管理系统

　　本课题的目的就是融桌面计算机管理和因特网络管理于一体，全面解决企业和学校的管理质量和管理成本。本文首先分析了计算机网络领域内的网络管理系统的现状和发展趋势，阐明

学位

网络管理系统桌面机管理数据库SNMPSQL中文

XML二进制序列化技术及其在DOA中的应用研究

随着移动互联网、云计算等新技术的迅猛发展，大数据时代已经来临，数据信息已经成为一种商业资本，对海量数据的有效组织管理能创造巨大的物质财富和社会价值。以海量异构数据为服

学位

序列化XML数据注册中心交换策略DOA

分布式应用的开发策略

随着信息系统应用环境的变革、PC的发展及网络技术的日益普及,集中式的Client/Server结构(简称C/S结构或两层式结构)及技术应用出现了爆炸性增长,大量的基于主机的系统向Cli

学位

西藏那曲地区分布式应用分布式数据库C/S体系结构

面向半结构和无结构文本的实体关系抽取关键技术研究

其他学术论文