论文部分内容阅读
随着互联网的快速发展,网络上的海量数据已成为问答系统研究的沃土。从1999年开始,信息检索评测组织(Text Retrieval Conference,TREC)和其他的一些著名评测组织,如NTCIR(NACSIS Test Collections for IR)和CLEF(Cross Language Evaluation Forum)设立了开放域问答的评测任务,这些举动大大推动了开放域问答系统方向的发展。目前,问答系统方向的研究已经成为自然语言处理领域中热门的研究方向,受到广大学者的强烈关注。 本文主要研究了问答系统的问题分类技术和基于端到端记忆网络的问答系统改进和原型实现,旨在提升现有的问答系统的效果并进一步探索问答系统领域更复杂的任务。具体来说,包括以下三方面的研究工作:(1)问题(句子)分类技术研究与改进。当前基于卷积神经网络(Convolutional Neural Network,CNN)的句子分类技术,只是单纯把每个单词的词向量表示堆叠在一起后送入卷积神经网络。我们提出将词频特征追加在词向量后面,同时把句子进行分割,以获取更多的边缘信息,实现更好的分类效果。实验结果表明我们提出的两种改进方案在整体性能上均优于原始的CNN模型;(2)基于记忆网络问答系统的研究及改进。我们分析了目前端到端记忆网络结构的局限性,模型中涉及到的注意力(Attention)机制计算方法是将两个句子中所有词向量相加得到句向量,然后通过求内积计算相关度再进行归一化处理得到的权重值。我们认为单词是文本的最小单元,所以提出增加额外的Attention计算方法,对数据集中的问题句子提取关键词,计算关键词与Memory模块里的句子中每个单词的相关度再进行归一化得到权重。将改进的模型在bAbI20数据集上进行大量实验,相对于原始模型有更好的问答任务准确率;(3)问答系统原型实现。对现有开源问答系统进行调研和分析,构建了问答系统架构和流程,设计了系统界面,并以(2)中改进的记忆网络作为模型实现了一个问答系统原型,系统可支持用户上传新的数据集和设置模型参数重新训练网络等功能。 总之,本文对问答系统领域及涉及的技术进行了研究和探索,研究成果可以有效提高问答系统的效果,对于问答系统研究具有一定的参考价值。