面向网络文本的命名实体属性抽取研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：shanghui

【摘要】

：

互联网是人们发布信息和获取知识的重要平台，随着冗余信息和垃圾信息的急剧增加，快速准确地获取需要的知识成为客观需求。在此背景下，知识图谱、问答系统等基于命名实体知识库的

【作者】

：

刘倩

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

网络文本命名实体属性值抽取自学习模板感知器学习算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网是人们发布信息和获取知识的重要平台，随着冗余信息和垃圾信息的急剧增加，快速准确地获取需要的知识成为客观需求。在此背景下，知识图谱、问答系统等基于命名实体知识库的应用越来越受到关注。命名实体知识库是以命名实体为存储目标的知识库，其构建过程需要将网络文本中包含的命名实体及其属性相关的非结构化信息抽取成结构化知识。然而，互联网中的文本数据具有规模庞大、非结构化、不规范、噪音多等特点，如何从这样的数据资源中发现并抽取命名实体属性信息是知识库自动构建亟待解决的关键问题。　　本文面向网络文本，针对命名实体属性三元组<实体名，属性名，属性值>抽取召回率低的问题，分别从实体名称、属性名和属性值三个方面展开深入的研究，提出一套适用于多领域命名实体属性抽取的通用方法，该方法用尽量少的人工实现了命名实体知识库的自动构建。本文主要贡献如下:　　1.针对命名实体名称抽取召回率低、标注数据稀缺且标注成本高的问题，提出了一种基于自学习模板的弱监督实体名称抽取方法。该方法仅需少量命名实体作为种子，通过两个二分图上的联合随机游走算法，学习出对命名实体名称抽取区分度高的上下文模板，从而迭代抽取更多命名实体名称。在区分难度较大的细粒度命名实体类别上进行试验，实验结果表明，该方法在各个命名实体类别上均取得了较好的抽取效果，而且利用抽取结果自动标注的数据能够辅助提升已有命名实体识别系统的F1值。　　2.针对属性名表述形式不统一，导致属性三元组抽取召回低的问题，提出了一种基于同义扩展的命名实体属性名抽取方法。该方法首先从字面和语义两个层面识别含义相同但表述方式不同的属性名候选，然后借助高频同义属性名的置信度提高低频属性名的置信度，从而召回大量被遗漏在长尾分布里的高质量属性名。在不同领域的实体类别上进行实验，实验结果表明，相对于当前主流的属性名抽取方法，该方法在保证抽取结果准确率基本不变的情况下，将抽取结果的数量增加为原来的2倍。而且本文方法在抽取属性名的同时实现了同义属性识别，为属性名的归一化和消除知识库冗余提供了依据。　　3.针对属性值抽取受限于文本结构、局部特征表达能力有限，导致属性三元组抽取效果不理想的问题，提出结合非局部特征的实体属性值抽取方法。该方法面向非结构化的网络文本，避免了网页结构和实体领域对属性值抽取的限制。首次将非局部特征引入到属性值抽取问题中，定义了属性值边界分布特征、属性值与属性名依赖关系特征用以捕获局部特征无法表达的全局性信息。为降低非局部特征的求解代价，进一步提出结合非局部特征的感知器学习算法G-Per，该算法支持加入任意形式的非局部特征并保持收敛性。在不同实体类别的属性上进行试验，实验结果表明，提出的非局部特征对属性值抽取非常有效，相比于当前主流的CRF模型，F1值具有显著提升。通过对G-Per算法的实验分析，表明该算法收敛速度较快，保证了方法的实用性。

其他文献

基于机器学习的汉语缩略语识别与预测

缩略语处理是自然语言处理的一个重要任务，具有较强实际应用价值。本文探讨汉语缩略语处理的两个重要方面：基于文档的缩略语自动识别，及基于全称的缩略语自动预测。对于缩略

学位

缩略语识别缩略语生成词聚类机器学习自然语言处理支持向量机模型

Java虚拟机的内存管理及优化

Java语言是一种面向对象的语言,它运行在Java虚拟机的平台之上.Java语言具有模块化好,跨平台和类型安全等特点.这些特点使得Java语言更适合于被用来进行快速安全的大规模的软

学位

Java语言Java虚拟机自动内存管理对象生命周期

基于模型的三维人体视频运动跟踪

人体视频运动分析是计算机视觉、计算机图形学和图像处理相互融合的一个重要研究方向,其研究核心是从多个同步视频序列中检测、跟踪人体运动,获取人体运动参数,重建人体三维

学位

人体运动跟踪三维人体模型多摄像机环境运动检测优化粒子滤波

SIPHello媒体处理方法和相关特性的改进

相对于传统的电话技术,VoIP在承载技术和体系结构上是一次革命性的改进,VoIP是利用分组交换技术通过IP网(Internet Protocol)承载和传送语音数据。从广义上来讲,VoIP已经成为

学位

VoIP服务质量媒体栈视频自适应缓冲区

一种基于网格的凝聚层次聚类算法

聚类分析是数据挖掘的一个非常活跃的研究方向。目前在文献中存在大量的聚类算法，算法的选择取决于数据的类型，聚类的目的和应用。迄今为止，主要的聚类算法可以划分为如下几类：1

学位

数据挖掘聚类算法层次聚类网格聚类

频繁场景挖掘算法及其应用研究

频繁场景挖掘是一种对序列模式挖掘的扩展，它特指从一条单一的事件序列中识别频繁出现的有序的事件集合。频繁场景挖掘技术已经得到广泛的研究，并在多个应用领域取得了良好的效

学位

频繁场景数据挖掘序列分析事件集合

基于LoRaWAN的MAC层协议的研究与改进

学位

办公自动化系统分析设计研究

本文根据目前国内外办公自动化系统建设的现状，提出了解决办公自动化领域中普遍问题的综合解决方案，对其功能模型进行了综合分析，并用Microsoft.Net平台实现，最终设计出了一套实

学位

办公自动化系统安全时序图

多跳无线网络性能评价与优化算法研究

随着多跳无线网络各种应用的迅速发展，人们对服务质量的要求越来越高，要求多跳无线网络既能满足非实时应用如高吞吐量、低时延以及低能耗等方面的服务质量需求，又能为实时应用提

学位

多跳无线网络性能评价优化算法端到端延迟分布

基于P2P的VOD服务体系研究

在Internet上提供大规模的VoD(Video on Demand)服务是一项具有挑战性的工作。传统的视频流播放方式是基于Client／Server(C／S)集中式网络模式，面临网络带宽受限的问题，表现在媒体

学位

P2P(peer to peer)VOD(Video on Demand)控制协议服务体系

面向网络文本的命名实体属性抽取研究

其他学术论文