问答系统中文本特征选择及词语权重计算方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:flyingmain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统(Question Answering System)采用自然语言处理技术,以自然语言问句为用户接口,完成对问句的理解,返回问句的答案而不是返回相关文档的集合.它的研究涉及到计算语言学、信息科学和人工智能科学,其核心是自然语言理解技术,包括文本自动分类技术和语义相似度计算.在问答系统中加入文本分类技术可以降低检索空间,提高检索效率.文本特征选择是基于向量空间模型的文本分类系统中的关键技术之一,主要是为了压缩空间维数,排除影响正确分类的干扰噪音,一般采用特征选择评估函数实现.该文采用KNN分类算法通过实验比较了较流行的五种特征选择评估函数TFIDF、互信息、期望交叉熵、信息增益和文本证据权,实验结果显示期望交叉熵是最适合中文旅游类文档自动分类的方法,并分别对效果较差的互信息、信息增益函数及效果较好的期望交叉熵函数进行了改进,使它们在分类精度上比原函数平均有较大的提高,尤其是改进后的信息增益函数评测结果超过了原来的期望交叉熵函数.问句与文档的相似度计算是信息检索领域的一个重要研究方向.在基于向量空间模型的信息检索系统中,词语权重计算是影响包含答案的文档在系统返回文档中的排序位置的重要因素之一,它解决了问句与文档中匹配词语的重要性的度量问题.该文针对面向体育旅游领域的问答系统应用中特殊重要的词语全局权重计算问题做了以下的研究:首先,分析比较了两种典型的词语全局权重计算公式,利用两个公式的优势互补,提出了一种新的组合词语全局权重计算公式,在实验中性能优于未组合的两种公式,提高了包含答案的文本片段在系统返回结果中的排序.其次,针对系统中应用的组块分析技术,提出了新的语义组块的权重计算公式,解决了匹配的语义组块的重要性度量的问题.最后,基于统计方法的词语全局权重计算结果也存在数据稀疏问题,该文将词语按词性分类,提出几种基于类别权重的新的未登录词权重计算方法解决了数据稀疏问题,通过实验比较选择了一种效果最好的,在系统应用中显示出比较满意的结果.
其他文献
风险管理是软件项目开发过程不可忽略的重要环节.风险因其发生的不确定性很容易被项目经理所忽视,但忽视风险的结果往往给项目带来毁灭性的灾难.只有正确的认识风险、管理风
主动网络是一种新型的网络体系结构,作为一种动态的运行环境它可以根据网络应用和服务的要求,对网络进行编程,因而大大加快了新网络应用和服务的实施,适应了网络快速发展的需
MOST模型是目前广泛采用的移动对象位置模型,本文在深入研究MOST模型的基础上,对其做了更进一步的数据抽象,提出了MOST+模型。MOST+模型将运动函数中变化频繁的速度与不甚频繁
本文根据北京市教育委员会科技发展计划面上项目"移动互联网智能翻译技术的研究"课题展开研究,围绕国际互联网与无线数据业务结合的发展方向,提出了一种面向WEB内容的新型WAP
Web代理缓存技术是改善网络性能,缓解网络瓶颈最有效的方法。文章从缓存替换算法、一致性策略和共享技术等7个方面对代理缓存技术的国内外研究现状进行了深入的分析。在此基
本文首先分析移动通信行业现有的计算机应用状况,研究数据挖掘领域的实现技术和算法,确定使用多层次的挖掘方法从用户的短信消费能力、业务使用习惯等几方面对短信业务数据进
该论文主要针对于三维CAD中的离散体造型方法进行了深入的理论研究,重点研究和实现了几种六面体拓扑网格上的体细分方法的构造与理论证明,同时利用提升算法建立了几种插值型
城市交通随着社会的发展面临着日益严重的交通拥挤、环境污染及社会效率下降等问题,解决问题的关键在于消除目前城市交通中人、车、路的分离状况,把车辆、道路和人等众要素综
随着计算机的发展、采集数据的工具的成熟以及数据库存储海量数据能力的增强,许多大型企业已经积累了大量的数据.这就迫使人们尽快地开发出一套切实可行的技术方法来智能的、
软件复用是提高软件质量和软件生产效率的有效途径.构件库是软件复用中管理可复用构件的基础设施,为基于构件的软件开发(CBSD)中的构件生产和构件复用两方面工作之间建立了桥