知识库问答关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:colleagelxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,互联网上知识库的数量日益增长,给人们提供了高质量的知识内容。但是,知识库通常规模较大,并且使用特定的词汇,可读性差。因此,如何让普通用户更方便地利用这些宝贵的知识资源成为了研究重点。知识库问答系统使用自然语言作为交互工具,为用户提供了一种更加友好的知识库访问方式,在学术界和工业界都成为研究热点。  为了更全面地对知识库问答展开研究,本文首先从任务和技术两个维度对知识库问答进行分类。知识库问答可以根据任务分为三类,即:单关系问题的单知识库问答、复杂问题的单知识库问答和复杂问题的多知识库问答。知识库问答技术可以分为两种:基于符号逻辑的技术和基于数值运算的技术。前者的目标是将用户提出的自然语言问句转化为结构化查询语言,然后通过查询知识库给出问题的答案。这种技术的准确率高,可以处理复杂问句,但是依赖词典,或者人工设定的匹配规则,可扩展性差;后者把知识库问答问题转化为数值运算问题,根据问句和知识库中候选答案的匹配程度给出答案。这种技术不需要人工设计规则或特征,可扩展性强,更适应大规模动态知识库应用,但是难以捕捉复杂问题的语义,并且需要大量的训练数据。本文分析了两种问答技术在三类问答任务上的适用性,选用不同的技术路线对知识库问答做了研究,研究成果如下:  一、针对单关系问题的单知识库问答,本文采用基于数值运算的技术,研究了基于注意力机制神经网络的知识库问答方法。基于神经网络的方法是面向大规模动态知识库问答的一种有潜力的方法,这种方法将自然语言问题和知识库中的候选答案表示为低维空间上的数值向量,从而把问答问题转化为数值运算问题。现有方法大多把重点放在了答案端的表示上,对于问句的表示仍然是单一和固定。本文认为,不同候选答案的不同方面对于问句中不同词的注意力程度是不同的,可以利用这种注意力程度,动态地表示问句。通过这种方式,答案的注意力就会对问句的表示产生影响,使得问句表示更为准确。在此基础上,本文利用知识库表示学习技术,融合了知识库的全局信息,使得知识库资源的表示也更加准确,并且有效缓解了未登录资源问题。在公开数据集WEBQUESTIONS上的实验表明,该方法超过了现有的采用数值运算技术的方法。  二、在复杂问题的多知识库问答方面,本文研究了与之密切相关的知识库对齐问题。多知识库问答任务需要多个知识库之间进行对齐,这也是和单知识库问答最大的不同。本文提出了基于表示学习的两种对齐方法:1)基于词向量的知识库对齐方法。首先利用大规模文本学习词的向量表示以更准确地表示词的含义,然后,将这些词向量用于两个知识库的实体对齐。在OAEI2013数据集上的实验表明了基于词向量的方法优于原有的基于语义词典的方法;2)基于知识库表示学习的知识库实体对齐方法。这种方法利用知识库表示学习模型,通过种子实体对齐,联合学习两个知识库中的实体向量表示,最后通过计算两个知识库实体间的相似度产生新的对齐。在FB15K数据集上的实验表明,联合学习模型的效果优于作为基线的独立模型。  三、针对复杂问题的多知识库问答,本文采用基于符号逻辑的技术,提出基于整数线性规划的多知识库联合问答方法。先对齐知识库再进行问答是一个解决办法,但是,知识库对齐并不是一个容易的过程,而且在这种流水线式过程中,对齐产生的错误也会影响接下来的问答过程。本文认为,知识库之间对齐的建立和最终查询语句的建立并不是独立的,而是可以互相影响和促进的。因此,联合实现这两个过程会比分别实现取得更好的效果。基于这种思想,本文利用整数线性规划模型,将这两个过程纳入到统一的优化框架中。通过这种方式,把对齐和问答这两个过程联合起来,为面向多知识库的问答提供了一种有效的新方法。在两个公开的英文数据集和一个中文数据集上,该方法都取得了最好的效果。
其他文献
精神分裂症是一种持续,慢性的重性精神疾病,在一般人群中的发病率为1%左右并且临床表现复杂多样。自从弥散张量成像技术被应用于该领域,大量研究开始利用该技术来探索精神分裂症
目标跟踪是计算机视觉的一个重要研究方向,在人机交互、智能监视、智能交通等领域都具有广泛的应用前景。本文主要研究单目标跟踪问题。基于检测与分类的目标跟踪算法是目前的
本文首先对大量的文献进行了综述,比较了各种故障诊断方法,分析了各种方法的优点和缺点.在简单介绍粗糙集基本理论的基础上,将粗糙集提取规则的方法应用于冷冻机组故障诊断规
本文结合近二十年来迅速发展的自适应噪声主动控制系统理论,对装甲车辆内部噪声的抑制进行了主动控制降噪的研究.本文介绍了AANC技术的基本背景,比较了在装甲车辆内部采用主
本文以济南钢铁集团公司的质量追溯和废次品原因分析系统为背景,结合数据仓库的理论和技术,深入探讨数据仓库技术在钢铁企业质量分析优化中的研究与应用。 钢铁企业在经过多
提高电力系统故障定位精度是电力系统分析的重要研究课题,准确的故障定位对迅速恢复故障具有重要实用价值。本文以小波分析为主要工具,对电力系统故障检测与故障定位进行了研究
在面向国家安全和战略规划的大型科学装置中,由于这些装置规模庞大,结构复杂,涉及的元件类型与数量众多,仅仅依靠工作人员规划工装的运动,往往导致人员和工装的重复劳动,造成装配效
数据挖掘是从海量数据中提取出有效的、潜在的、有用的,并最终可被理解的高级处理过程.数据挖掘不仅是一种理论性和应用性都很强的技术,而且也是一个充满活力的研究领域.目前
城市轨道交通车辆车轮尺寸是直接影响列车运营安全的关键因素之一,目前国内车轮尺寸检测仍停留在卡尺检测阶段,难以满足城市轨道交通快速发展的需求。在这种背景下,研制检测速度
长期以来,电力拖动系统一直存在低速运行不平稳,精确定位困难等问题,己成为提高系统精度,保证产品质量的一个重大障碍。因此,伺服系统的低速问题一直是伺服领域研究的热点。除了软