论文部分内容阅读
问答系统(Question Answering System)采用自然语言处理技术,以自然语言问句为用户接口,完成对问句的理解,返回问句的答案而不是返回相关文档的集合.它的研究涉及到计算语言学、信息科学和人工智能科学,其核心是自然语言理解技术,包括文本自动分类技术和语义相似度计算.在问答系统中加入文本分类技术可以降低检索空间,提高检索效率.文本特征选择是基于向量空间模型的文本分类系统中的关键技术之一,主要是为了压缩空间维数,排除影响正确分类的干扰噪音,一般采用特征选择评估函数实现.该文采用KNN分类算法通过实验比较了较流行的五种特征选择评估函数TFIDF、互信息、期望交叉熵、信息增益和文本证据权,实验结果显示期望交叉熵是最适合中文旅游类文档自动分类的方法,并分别对效果较差的互信息、信息增益函数及效果较好的期望交叉熵函数进行了改进,使它们在分类精度上比原函数平均有较大的提高,尤其是改进后的信息增益函数评测结果超过了原来的期望交叉熵函数.问句与文档的相似度计算是信息检索领域的一个重要研究方向.在基于向量空间模型的信息检索系统中,词语权重计算是影响包含答案的文档在系统返回文档中的排序位置的重要因素之一,它解决了问句与文档中匹配词语的重要性的度量问题.该文针对面向体育旅游领域的问答系统应用中特殊重要的词语全局权重计算问题做了以下的研究:首先,分析比较了两种典型的词语全局权重计算公式,利用两个公式的优势互补,提出了一种新的组合词语全局权重计算公式,在实验中性能优于未组合的两种公式,提高了包含答案的文本片段在系统返回结果中的排序.其次,针对系统中应用的组块分析技术,提出了新的语义组块的权重计算公式,解决了匹配的语义组块的重要性度量的问题.最后,基于统计方法的词语全局权重计算结果也存在数据稀疏问题,该文将词语按词性分类,提出几种基于类别权重的新的未登录词权重计算方法解决了数据稀疏问题,通过实验比较选择了一种效果最好的,在系统应用中显示出比较满意的结果.