知识图谱自动构建关键算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:surtacohen1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统互联网的组成形式是由文档(网页)及其文档之间的关联(超链接)组成,这种组织形式并不能被机器所理解。知识图谱作为一种用实体及其语义关系来表达知识的语义网络,通过将实体及其关系利用图的方式进行表达,使得机器可以很容易的读取其中的语义逻辑关系,知识的表达也更为简单。为此,知识图谱的研究受到越来越多的关注。  由于知识图谱具有丰富的语义信息,目前对于知识图谱的需求越来越大,这也使得知识图谱的自动构建成为了一个研究热点。目前主流的图谱自动构建算法包括利用社区资源构建和利用非结构化文本进行构建。尽管这两种方法已经取得比较不错的效果,但是每种方法均存在很多可以改善的空间。如果可以对于其中的关键算法和环节做一些改进,会在一定程度上提升知识图谱自动构建的效果,这对于知识图谱的研究具有重要意义。  基于上述原因,本文的主要研究内容如下:  (1)针对基于社区资源构建方法得到的图谱不完整的缺点,目前主流的方法是通过表示学习得到图谱中实体和关系的分布式表示,进而进行图谱补全工作。本文主要针对目前表示学习方法对于实体描述信息这一文本信息利用不完全的缺点,通过注意力机制将具有某一关系的两个实体的描述信息同时进行考虑,提出了基于三元组的文本表示方法。  (2)在上述(1)的基础上,本文通过设计多种神经网络结构来实现基于三元组的文本表示方法,进而提出了一种基于实体描述信息的表示学习模型。通过在公共数据集FB15K中对图谱补全的两个经典任务的实验结果表明,改进后的表示学习模型相比于几个基准模型在MR和P@10指标上均有一定程度的提升。  (3)尽管非结构化文本构建方法在通用领域取得了不错的效果,但是由于缺乏初始本体或知识库,该方法在专业领域难以开展。针对这一问题,论文引入叙词表这一多数领域都存在的资源,利用叙词表自身的结构,通过两个假设,从叙词表的结构中提炼出实体类型和关系类型。  (4)在上述(3)的基础上,论文设计了一种基于叙词表的自动生成高质量种子的方法,使得Bootstrapping方法可以应用在这些领域。最后,通过两个完全不同的行业领域进行实验验证,结果表明该方法取得了同人工设计种子比较接近的平均准确率。与此同时,论文也阐述了叙词表的通用性,这一模型同样适合其他的行业领域。
其他文献
互联网的出现从本质上改变了整个社会的办公、管理、经营模式,国内各大企业从20世纪90年代开始,就有了通过网络进行办公、管理、经营的想法。并随着互联网技术的发展,基于客户机
本研究课题来源于广东省自然科学基金项目“NSCLC生物适形调强放疗靶区智能识别及自适应控制”,作者主要负责医学图像的配准融合部分的工作。 医学图像配准融合是医学影像
SIP协议(Session Initiation Protocol , RFC 3261)已经成为IP通信的主流信令标准,无论NGN还是FMC、源自3GPP的IMS,均以SIP信令为核心;另一方面,一些专有协议的IP通信应用已
Internet的迅速普及使得网络新闻成为民众掌握时事与获取各类最新信息的重要途径,但是在海量信息中找到自己关注的新闻及新闻话题也绝非易事。为了让人们能够快速地从新闻中获
学位
当今社会中,随着信息技术的发展,数字电视、计算机和通信三大传统产业的互相渗透和融合,使得视频信息的传递日益成为人们通信的重要内容之一。但是由于视频信息本身就非常庞大的
软件在航空航天应用中所占的比重越来越大,软件质量对于航空航天系统的可靠性也变得越来越重要。为了引进更先进的计算机技术,缩短研制周期,降低研制成本,航空航天领域中的嵌
学位
语义桌面是语义Web研究的重要分支,它将语义Web技术应用到桌面管理系统,用知识本体对桌面资源进行描述,改变现有的以文件夹组织文件的管理方式,提供精确查询,用户无需关心文件的存
学位
Ad Hoc网络由于其具有不需要基础设施、多跳、分布式控制、节点低能耗和移动性等特点,使得基于有线网络的协议和规范并不适合于Ad Hoc网络,因此必须重新设计新的协议来满足Ad H
近年来,随着视频压缩技术,硬件存储设备和网络传输技术的快速发展,视频、音频、图像等多媒体数据作为一种动态、直观和形象的数字媒体,承载了大量丰富的语义信息,广泛应用于各类信
学位
网络发展到今天,没有一个概念能像Web服务这么快地流行起来,并引起广泛的关注,可以说Web服务是一场软件的革命。Web服务的诞生不是偶然的,是Internet以及相关技术发展到一定程度