中华字库问答系统中关键算法的研究与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:wn206403
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展一直是以人为本,用户体验是互联网产品的命脉所在,而快速便捷的服务是用户体验中最重要的因素之一。搜索引擎曾经一度让人们从海量网页中获取有效信息的繁琐中解放出来,但随着技术发展搜索引擎的不便捷也越来越突显出来。输入关键词组合输出一列链接,这种交互方式相比输入自然语言输出答案的问答系统来说很“繁琐”。问答技术的发展,使得问答系统实用性越来越强,很多以自动问答形式的互联网产品也涌现出来。问答技术以一种新的方式逐渐改变着互联网用户的使用习惯。   本文是在中华字库项目中问答系统的基础上进行的研究,针对该问答系统的特点本文将其划分为基于问答集数据源的问答系统,即问答系统的数据源以问答对形式存在。这类问答系统的特点是接受用户自然语言的问题,从问答集中检索出最相关的问答对。通过对这类问答系统的分析与传统信息检索进行了比较,在形式上这类问答系统与传统信息检索有很多相似之处,同时也存在一些不同,本文总结了三点不同之处。第一,检索的对象是问答对,其长度相对较短,语言表达简短凝练;第二,问答对由问题部分和答案部分组成,两部分描述对象、描述方式不同;第三,用户问题为自然语言句子而非关键词。本文在介绍了以问答集为数据源的问答系统相关研究方法后,针对前两点不同展开论述。   针对问答集中问答对长度较短,若使用关键词直接匹配的方式,会忽略词语之间的语义相关性,通过使用主题模型的方式能够解决词语之间独立性的问题。针对问答对中问题部分和答案部分的不同,将问题部分和答案部分分别处理。通过对数据源分析,发现答案部分与用户问题之间存在词汇鸿沟问题,通过统计翻译模型能解决这一问题。本文最终将这问答集中的问题部分和答案部分的概率模型融合,提出了一种新的相似度计算公式,通过对比实验证明新算法的有效性。   由于本文是在中华字库项目背景下,需要将算法使用到实际的系统中,本文在最后进行了系统流程设计和架构设计,保证了算法效率和实用性。
其他文献
作为云计算和新兴Web2.0互联网应用的核心技术之一,分布式文件系统是当前存储系统技术领域的研究热点。分布式文件系统的资源共享、对存储平台的抽象性和隔离性、大规模扩展
高性能计算是科技创新的重要手段,随着国民经济的迅速发展,提供高效快捷的应用服务成为高性能计算应用领域研究的热点。本文从高性能应用的需求出发,分析了当前高性能应用的不足
随着多媒体技术、互联网技术、移动通信技术和VLSI技术的飞速发展,数字视频在人们日常生活中扮演着越来越重要的角色。数字视频资源的爆炸式增长和新应用需求的不断涌现,向视频
近年来,大部分高校,企业或者政府的业务基本都是通过MIS系统来实现,MIS系统涉及的领域越来越广。MIS(管理信息系统,Management InformationSystem)系统,主要指的是进行日常事
心率变异性(Heart rate variability,HRV)是指心率节奏快慢随时间所发生的变化。HRV的研究目的是分析逐个心动周期的细微的时间变化及其规律。这种变化在体表记录的常规心电
社区问答系统已成为互联网上信息获取和知识分享的重要媒介。例如Yahoo!Answers、百度知道等社区问答网站每天发布有数以万计的问题。与此同时,社区问答系统也积累了数以亿计
数据处理是计算机最核心任务之一。随着互联网和计算机技术的发展,电子数据量的急剧增加,普通计算机系统的处理能力已经不能满足大规模数据处理的需求;同时,随着Web2.0和社交网
中小学代数应用题的研究一直是国内外智能教学系统的研究热点,随着语言描述复杂性的提高及方程解题思想的引入,代数应用题智能教学系统面临更大的困难。本研究以我国中小学代
自动语音识别技术经过60多年的研究和开发,取得了很大进展。目前,英语、汉语等大语言的语音识别技术逐步成熟,开始进入商用阶段。维吾尔语语音识别研究在近几年才得到重视,在研究
在信息技术快速发展的今天,网络使得数据传输更加有效。无线传感器网络因为其自身的网络环境复杂恶劣,以及对信息及时性和准确性的高质量要求,已被广泛应用到军事领域、环境