基于大规模知识图谱的自动问答技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:GXDZL126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大规模知识图谱的构建,基于知识图谱的自动问答成为自然语言处理领域的研究热点。该任务旨在用知识图谱中的三元组回答用户问题,使用户能够高效、准确地获取知识。然而,知识图谱问答由于知识图谱规模庞大、问题和答案数据异构而存在挑战。目前大量工作关注于分段式建模问题与三元组的局部匹配,从而进行答案选择。然而这样忽略了不同匹配子任务之间的关联,容易带来误差传播问题。此外,由于缺乏大规模无偏标注数据,模型遇到低频或者未登录关系时效果容易变差。因此,本文利用深度学习方法进行模型改进,利用外部数据和逆任务进行模型提升。本文主要工作包括如下几个方面:·基于序列标注模型的子图检索 利用整个知识图谱作为候选答案是不切实际的,因此需要检索出与问题相关的子图,减小模型的搜索空间。本文首先构建了基于Bi-LSTM的序列标注模型识别问题的主题实体,接着设计了启发式算法进行主题实体和知识图谱中候选实体的匹配,该算法结合了融入先验知识的扩展匹配和基于Jaccard的模糊匹配,旨在修改该阶段的误差,从而扩大实体召回,产生高质量的候选答案集合。·基于多任务学习的候选重排模型 在候选答案重排阶段,本文针对现有的问题答案匹配框架进行改进,缓解其中的误差传播问题。其一,基于多任务学习构建一个具有共享编码层的联合匹配模型,使实体匹配和关系匹配两个子任务共同学习。其二,我们在模型中设计了一个对称互补注意力机制模块,旨在捕捉两个子任务之间的关联信息,区分问题的在不同子任务中的语义表示。实验证明模型在整体任务和各个子任务上都有效果的提升。·融入外部文本和逆任务的模型提升 为缓解缺乏标注数据问题,本文探究了两种模型提升方法。其一是融入外部文本数据的模型改进,其中主要包括融入文本信息的关系编码模块和融入子图信息的实体编码模块,使三元组考虑上下文环境得到更准确的编码表示。其二是利用知识图谱问题生成模型自动生成问答数据进行数据增强,然后对原预训练好的问答模型进行微调。最后实验分析了两种提升方法的有效性。
其他文献
近些年来,互联网相关技术得到高速的发展,特别是微博、Twitter等社交媒体网络平台的出现,使得社交媒体成为媒体和大众分享新闻事件和生活情感的重要媒介。新浪微博得益于应用平台广泛、操作逻辑简单和信息传播速度极快等特点,迅速成为中国规模和影响力巨大的社交媒体网络新平台。新浪微博的日发文量高达数千万,其中包含的文本信息规模巨大。应对庞大的微博文本数据,如何进行合理高效的信息整合并从中提取出热点主题是文
目的:通过高脂饲料饮食喂养SD大鼠成功建立NASH模型,探讨非酒精性脂肪性肝炎血清内毒素及IL-28B的水平。方法:选取雄性SD大鼠38只,根据体重按随机区组为2组,即对照组(12只),予以普通饮食饲料;干预组(26只),予以高脂饮食饲料。SD大鼠给予高脂饲料饮食喂养在8-12周肝脏病理可达到中重脂肪性肝炎。我们前期预实验发现12周末SD大鼠肝脏病理改变达到NASH,本次实验也在第12周时随机取出
伴随着经济迅猛发展,化石能源日益削减,核能因其清洁、高效等特点而得到青睐。核能的快速发展导致对铀矿开采利用的迅速增长,但同时产生大量低浓度含铀废水。纳米零价铁应用
随着社会的不断发展,电能的消耗也越来越大。据统计,我国每年照明用电的总消耗约占全部电能消耗的12%-15%,其中传统照明光源的低效率则是电能消耗量如此之大的主要原因之一。发光二极管(light emitting diode,LED)作为第四代先进光源,因其体积小,亮度高,发光效率高,使用寿命长、节能环保等特点,越来越受到人们的关注,并正逐步取代白炽灯和荧光灯等传统光源,成为白光照明领域的主角。氮化
空化现象自1893年首次被人们发现,一直是国内外学者关注的重点问题,空泡溃灭时产生的高强度微射流会严重损伤金属表面,对水力机械的强度和使用寿命都是很大的冲击。百年来人们经历了数次大型水利枢纽因空化而造成的损坏事故,损失难以计量,因此对于空化产生机理和改善方法的研究具有重要意义。轴流泵具有低扬程、大流量的特点,工作环境复杂,易发生空化,而针对轴流泵空化控制的研究较少。本文以轴流泵为研究对象,通过数值
目的:从细胞凋亡与自噬的角度,通过细胞学实验验证当归挥发油对缺血再灌注引起的神经细胞损伤的保护作用,并对相关分子生物学机制进行初步探讨。方法:本实验以高分化的PC12细胞为实验对象,采用“缺糖-复糖”结合“缺氧-复氧”的方法,在体外模拟神经细胞“缺血再灌注”损伤,MTT法检测当归挥发油对损伤后神经细胞存活率的影响,测定脂质过氧化物水平,评价其对神经细胞的保护作用。流式细胞术检测当归挥发油对损伤后P
人偏肺病毒(human metapneumovirus,hMPV)自2001年荷兰科学家首次从呼吸道疾病患者的气道分泌物中分离发现至今已有19年,在世界各地均有流行,是婴幼儿和免疫功能障碍的儿童引起呼吸道疾病的主要病原体。尽管hMPV已经被发现多年,但目前大部分的研究还是主要集中在流行病学方面,我们对于其感染机制了解还甚少,也没有合适的疫苗和药物可以预防或者控制hMPV感染后在体内的复制。课题组在
目的:探讨瞬时受体电位离子通道TRPM7(Transient Receptor Potential Melastatin 7)在人口腔颊黏膜成纤维细胞中是否表达,以及抑制TRPM7离子通道后对人口腔颊黏膜成纤维细胞增殖和迁移的影响。方法:本实验所采用的组织来源于西南医科大学附属医院口腔颌面外科手术室,采用组织块法体外培养人口腔颊黏膜成纤维细胞。1.分离纯化后经免疫荧光染色鉴定是否为成纤维细胞;2.
烯丙基化反应是一类重要的碳-碳键的构建方法,在有机和药物合成中具有广泛的应用。发展高效和高选择性的烯丙基化反应在有机合成中具有重要意义。传统的烯丙基化反应大多采用烯丙基卤代物、烯丙基醇、烯丙基醇酯等带有离去基团的烯丙基试剂而实现,反应过程中会产生当量副产物,原子经济性较差。近年来,不同类型的不饱和烃如联烯、1,3-二烯、炔等作为原子经济性的烯丙基化前体,被应用到不同类型的烯丙基化反应中,该类反应不
伊尔库茨克州是俄罗斯联邦的一级行政区,隶属西伯利亚联邦管区,位于东西伯利亚南部、亚欧大陆中心地带,是俄罗斯东西伯利亚地区政治、经济和文化中心,地理位置优越,自然资源丰富。东北地区指我国黑龙江、吉林和辽宁三省以及内蒙古东四盟构成的区域,简称东北。伊尔库茨克州与东北地区土壤相近,气候相似,风景相宜,两国的友好往来促进了两地区的联系与交往,使两地区的社会文化,生活习惯,宗教信仰在交融中有些差异,在差异中