基于表示学习的知识图谱技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:wumujiayou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以深度学习为代表的人工智能技术在语义搜索、自动驾驶、智能问答、机器翻译等领域的应用取得了巨大进步,极大地促进了机器智能化水平的提升。事实上,机器智能实现的背后依赖的正是知识图谱技术。知识图谱作为大数据时代下知识组织的重要方式之一,以结构化的形式描述客观世界中的概念、实体及其之间的复杂关系,为互联网上海量、异构、动态的大数据的组织、管理、理解和利用,提供了一种有效的方式。自2012年Google提出知识图谱以来,国内外互联网搜索引擎公司,如美国的微软必应、中国的百度和搜狗等,也纷纷宣布了各自的“知识图谱”产品。知识图谱迅速发展成为人工智能领域的研究热点,引起了学术界和工业界的高度关注。与此同时,随着深度学习、类脑科学等研究领域的不断发展,知识图谱将成为未来智能机器的大脑。本文针对知识图谱中的知识表示、知识抽取和知识融合三大核心技术进行了深入研究。具体研究内容如下。
  首先,针对客观世界的知识在计算机中如何表示和处理的问题,基于翻译操作提出一种利用关系相关性的知识表示模型。本文指出了现有的代表性知识表示模型在学习关系的向量表示过程中存在的问题,即关系被独立地映射到向量空间而忽略了它们之间内在的关联。考虑到不同关系可能会链接到同一实体,如知识三元组(Steve Jobs,PlaceOfBrith,California)和(Apple Inc.,Location,California)共用California作为尾实体,因此关系PlaceOfBrith和Location之间应存在着某些相关因素。对现有知识表示模型学得的关系表示矩阵分析,验证了关系间相关性的存在,并在关系表示矩阵上以低秩特征形式呈现。基于关系间相关性提出了一种新的知识表示模型,采用矩阵分解方法把关系表示矩阵分解为两个低维矩阵,从而显式地刻画其上的低秩特征。通过这种方式把关系表示矩阵的学习转化为对两个低维矩阵的学习,在知识表示的学习过程中能够有效地捕捉关系间的相关性特征。在公开的数据集上通过标准的知识表示评测任务,验证了所提模型的有效性。
  其次,提出了一种词级的注意力机制卷积神经网络模型用于实体间语义关系的抽取。本文认为句子中词信息量的大小不同,并且词信息量的大小与语义关系有关,即同一个词对于不同的语义关系来说,其信息量的大小可能不同。基于以上考虑,提出一种词级的注意力机制卷积神经网络模型,根据当前考虑的语义关系动态调整词的权重值,构造出更加精准的句子表达,有效地提升了语义关系抽取的结果。
  然后,针对传统的运行在单节点上的条件随机场(conditional random fields,CRFs)算法在面向大规模文本数据实体抽取任务时遇到的问题。采用“分而治之”的思想,基于分布式计算框架Spark设计了集群环境下的CRFs并行化方案,实现一种运行在集群模式下的分布式CRFs——SparkCRF。在公开数据集上通过大量实验,验证了本文设计和实现的SparkCRF能够适用于大规模文本数据的实体抽取。
  最后,提出了一种基于表示学习的知识图谱实体对齐算法。实现多源知识的融合,从顶层构建一个大规模、统一的知识图谱,能够有效地增强机器对底层数据的理解能力。针对知识融合过程中的实体对齐算法进行研究,首先在低维向量空间下,采用表示学习技术得到相应的知识表示,它蕴含了知识图谱的内在结构信息及实体属性特征。然后,将人工标注的实体对作为先验知识,学习知识图谱间实体对的映射关系。经实验验证了本文方法能够有效提高知识图谱实体对齐的精确率。
  通过上述研究,本文在知识表示、知识抽取和知识融合方面分别提出了新的技术方法和思路。希望本文工作可以为知识图谱技术的发展和应用起到进一步推动作用。
其他文献
储能电池应用日益广泛,其通常需要外部变换器来进行所需交、直流电能的变换。模块化多电平变换器(MMC)具有结构灵活和有交、直流两个输出端口的特点,已在工程中广泛应用。本文根据MMC系统的结构特点,将电池模块集成到单相MMC多电平拓扑中,并提出适用于此结构的控制算法,来实现MMC交直流功率控制以及电池之间的均衡。  为改善现有电池储能系统需要多种管理装置以及扩展性差的问题,本文先介绍所提的基于电池能量
化石燃料发电排放的二氧化碳和二氧化硫等有害气体,加剧了全球温室效应。风力发电,因其具有可再生、清洁等优点,得到大力发展。然而,功率波动性和预测不确定性兼具的风电大规模并网,也给电网运行带来极大负担,需要占用大量系统备用、需要传统机组频繁调节。为此,本文基于分类思想,探讨将小波动、低不确定的高品质风电与大波动、高不确定的低品质风电,通过能量路由技术分离开来进行分类消纳,以降低电网运行备用和调节负担的
学位
高效率DC-DC转换器可以延长手持装置用电池寿命.该文结合工程项目设计了一种高效率DC-DC转换器.从DC-DC转换器的降压型拓扑结构出发,对转换器的两种控制方式PWM和PFM,作了详细的阐述和探讨.分析两种控制方式的优缺点和改进措施,并给出相应的解决方案.该文的DC-DC转换器采用优于PFM和PWM的PFM/PWM混合控制方式,实现了输出电压为12V,负载从0.25A~3A范围内效率为90%以上
溶胶-凝胶湿化学方法在制备无机基质材料中的应用为有机染料的掺入提供了一种可行和有效的方法,极大的推动了有机-无机复合光功能材料的研究.该文是利用溶胶- 凝胶工艺将有机染料均匀掺入到二氧化硅凝胶基质,以研究复合材料的组成、结构和性能间的相关规律,为制备性能优异的固体可调谐染料激光器提供理论依据和工艺条件.
该文选用复合钙钛矿结构A(B′B″)O型高端微波介质陶瓷为研究对象,用固相法合成工艺制备试样,采用XRD、SEM和EDS等分析手段,利用矢量阻抗法、同轴传输线法和开式腔谐振法进行测试,对A(B′B″)O型高端微波陶瓷的晶体结构、物相结构、有序-无序型相转变和介电性能进行了深入的研究.(1)系统研究了BMT系的晶体结构和介电性能.通过晶体学计算,标定出BMT主晶相存在的两种结构,1:2有序六方超晶格
随着互联网信息技术的普及应用,越来越多的图像资源被上传到网络平台,针对如此庞大的图像数据,人们迫切的需要一项技术来实现图像的检索查询。早期的图像检索通过文字标注得以实现,由于标注过程繁琐且缺乏客观性,已逐渐不能适应当下的检索需求,因而基于内容的图像检索技术应运而生。该技术可以对图像的内容信息实现自动分析获取,避免了图像文字标注过程中受到人为因素干扰。为了提高图像检索性能,文中以图像底层特征为基础重
学位
互联网作为新一代信息技术(如:物联网、工业互联网、大数据等)的通信基础,其时延特征从时间维度表征了互联网的信息传播特性,是评价衡量互联网的最重要的性能指标。近年来,随着高性能集群计算、云计算、边缘计算/雾计算等新一代计算技术的飞速发展,面向互联网业务计算与部署的时效性问题已经逐渐转变为业务数据在互联网上传输的实时性问题,即通信时延问题。互联网发展至今,已经从原有的“抢空间”模式逐渐转移到“省时间”
学位
糖尿病视网膜病变(糖网)是糖尿病最为严重并发症之一,也是导致视力损伤或失明的主要病因之一。临床上,利用眼底图像进行定期的分类筛查和尽早的诊疗是控制病情发生、发展最有效的手段。当前糖网筛查主要依靠眼科医师人工地检查和分析眼底图像上的异常病变(如微动脉瘤、出血斑和硬性渗出),从而对其进行诊断与分类,这颇为费时费力,也制约了糖网筛查的大规模实施。此外,庞大的筛查人群和稀缺的眼科医师也成为了大规模糖网筛查
学位
随着服务计算、云计算的快速发展,网络上被部署了大量的服务资源,由于网络服务访问的便利性,越来越多的用户通过网络使用各种各样的服务资源以完成其业务应用。服务资源的快速增长,导致提供相近功能的服务数量日益增多,服务资源访问的频繁性使得服务请求数量在某一时间间隔可能会迅速增大,这使得服务选取问题不仅要考虑功能相近服务的质量,同时要考虑服务质量在大规模请求下的变化。而目前的服务选取问题大都没有考虑大规模请
学位
随着人们对高性能计算的不断追求以及芯片工艺的持续发展,实时系统的集成度越来越高,从而导致功耗密度不断增加;同时由高功耗引起的热问题也越来越严重,反过来严重制约了性能的进一步提升。高功耗降低系统的生命周期,高温度严重影响系统的可靠性和安全性。此外,功耗和温度之间存在一种恶性循环关系:功耗越大,温度越高;温度越高,则漏电功耗越大,进而功耗越大,反过来使得温度更高。进一步地,由于设备体量较小,实时系统的
学位