论文部分内容阅读
当前的搜索引擎主要基于字符串匹配的方式,用户只能通过输入关键词进行搜索,这种方式不能准确获取用户所需信息,而基于自然语言问答方式的搜索引擎可以弥补前者的不足,成为下一代搜索引擎的重要发展趋势。如今,开放领域问答系统的研究已经有很多,其中涉及到人物、时间、地点、历史重要事件和专业技术等领域,并且面向这些领域的受限领域问答系统的理论研究和应用开发在一定程度上推动了开放领域问答系统研究的发展。本文针对人物简历这一受限领域问答系统的答案抽取方案开展了研究,并实现了原型系统,其主要包括一下几部分工作:首先,分析人物简历问答系统的研究现状、相关概念和实现技术,以及它的应用需求和文本特征。其次,提出了基于频繁子树挖掘的答案抽取方案。该方案通过语法分析工具将样本语料库中的答案文本转化为上下文无关语法树,并使用TreeMiner频繁子树挖掘算法,从中挖掘频繁模式生成答案模板集。通过计算候选答案的上下午无关语法树与答案模板集合中模板的匹配度,据此确定答案。然后通过对比基于频繁子树挖掘和基于频繁序列挖掘两种答案抽取方案的对比实验,证明了基于频繁子树挖掘的答案抽取方案的良好效果。随后,设计并实现了人物简历问答原型系统。设计主要包括:人物简历问答系统的数据流程设计,系统功能模块设计以及主要功能模块的相关数据结构设计。系统实现主要包括:使用HtmlParser页面解析工具对网页中人物条目及相关文本的自动抽取;使用StanfrodParser语法分析工具完成句法树的分析和TreeMiner频繁子树挖掘算法实现人物简历答案的抽取;展示该原型系统的功能界面,并分析系统的性能及其应用前景。最后,本文对研究工作进行了总结,提出了今后进一步的研究方向。