论文部分内容阅读
在信息爆炸式增长的互联网时代,传统的基于关键词的搜索方式因其缺乏语义层面的理解并需耗费大量时间筛选答案,已经逐渐不能满足人们快速获取知识的需求。问答系统作为一种更快捷的交互手段,直接返回用户答案,获得了业界广泛关注,同时知识图谱的出现提供了结构化的知识形式,使用户能够获得更加简洁和准确的信息。因此基于知识图谱的问答逐渐称为科研工作者和工业领域人员研究的热点。 对于中文知识图谱问答,传统方法往往依赖于手工特征以及预定义规则,而现有深度学习方法并未较好解决问句语义特征稀疏的问题,且存在未充分利用数据特征的不足。针对上述问题,本文研究了知识图谱问答中的自然语言问句理解以及语义关联搜索中的关键技术,具体相关工作和研究成果如下: 1.针对问句理解相关工作中检索效率较低,需要大量的搜索空间,同时还引入了许多无关噪声的问题,采用序列标注的方法利用字符级别的Bi-LSTM-CRF序列标注模型进行实体识别。同时针对问句为短文本,缺少上下文信息和语义特征稀疏的特点,基于莱文斯坦比以及最长公共子序列,提出了LRLCSB(Levenshtein Ratio&Longest Common Subsequence Based)实体链接算法,较好地将实体链接至给定的知识图谱,为下一步语义关联搜索提供了良好的数据基础。 2.针对自然语言问句表达与知识图谱中结构化、规范化的属性之间存在差异的情况,以及目前语义关联搜索模型的网络结构未充分利用训练数据特征的问题,提出了基于注意力机制的多粒度表示层次匹配模型。该模型针对文本嵌入采用不同粒度的表示信息,将字符级别、词级别的文本嵌入结合,并引入属性级别表示,充分利用了数据特征。同时该模型还引入层次匹配结构以获得问句隐层表示更加抽象的信息,并采用注意力机制以更加关注属性在问句中的表示部分。实验结果表明,本文的语义关联搜索模型在中文知识图谱问答数据集上取得了良好的实验结果,具有较好的应用价值。 3.基于提出的自然语言问句理解算法以及语义关联搜索模型,实现了军事领域知识图谱问答原型系统。该系统通过爬取并融合中文维基、百度百科和米尔军事网站等互联网开源数据,构建了一个包含1.03万军事相关实体以及15.04万属性和关系的特定领域知识图谱,在此基础上,利用本文提出的算法和模型,系统较好地实现了基于知识图谱的自动问答功能。