论文部分内容阅读
互联网技术的发展一直是以人为本,用户体验是互联网产品的命脉所在,而快速便捷的服务是用户体验中最重要的因素之一。搜索引擎曾经一度让人们从海量网页中获取有效信息的繁琐中解放出来,但随着技术发展搜索引擎的不便捷也越来越突显出来。输入关键词组合输出一列链接,这种交互方式相比输入自然语言输出答案的问答系统来说很“繁琐”。问答技术的发展,使得问答系统实用性越来越强,很多以自动问答形式的互联网产品也涌现出来。问答技术以一种新的方式逐渐改变着互联网用户的使用习惯。
本文是在中华字库项目中问答系统的基础上进行的研究,针对该问答系统的特点本文将其划分为基于问答集数据源的问答系统,即问答系统的数据源以问答对形式存在。这类问答系统的特点是接受用户自然语言的问题,从问答集中检索出最相关的问答对。通过对这类问答系统的分析与传统信息检索进行了比较,在形式上这类问答系统与传统信息检索有很多相似之处,同时也存在一些不同,本文总结了三点不同之处。第一,检索的对象是问答对,其长度相对较短,语言表达简短凝练;第二,问答对由问题部分和答案部分组成,两部分描述对象、描述方式不同;第三,用户问题为自然语言句子而非关键词。本文在介绍了以问答集为数据源的问答系统相关研究方法后,针对前两点不同展开论述。
针对问答集中问答对长度较短,若使用关键词直接匹配的方式,会忽略词语之间的语义相关性,通过使用主题模型的方式能够解决词语之间独立性的问题。针对问答对中问题部分和答案部分的不同,将问题部分和答案部分分别处理。通过对数据源分析,发现答案部分与用户问题之间存在词汇鸿沟问题,通过统计翻译模型能解决这一问题。本文最终将这问答集中的问题部分和答案部分的概率模型融合,提出了一种新的相似度计算公式,通过对比实验证明新算法的有效性。
由于本文是在中华字库项目背景下,需要将算法使用到实际的系统中,本文在最后进行了系统流程设计和架构设计,保证了算法效率和实用性。