论文部分内容阅读
相对于传统的关键词方式搜索引擎,问答系统允许用户以自然语言的方式提问,自动分析用户的问题,为用户直接返回所需要的答案,是新一代的智能搜索引擎,是当前的研究热点。
问句分类是问答系统的一个重要组成部分,是答案定位和答案抽取的基础,问句分类结果直接影响系统返回问题答案的准确率。目前问句分类研究主要集中在统计机器学习的监督学习问句分类方面,但在建立分类模型时,存在问句特征向量空间数据稀疏,以及需要大量的人工标注问句样本提供学习等问题。因此,本文围绕中文问句分类展开研究和探讨,主要在中文问句分类特征提取、多分类器集成学习、半监督学习问句分类、基于图的问句标记传播,以及问句的领域迁移学习方面研究,取得了以下特色和创新成果:
(1)针对问句分类特征提取困难和特征向量空间数据稀疏的问题,提出基于语义相似度计算的中文问句特征提取方法。首先从语料库中选取高频关键词、领域词和疑问词等作为特征项,然后通过句法分析获得问句主干词,利用词语语义相似度方法计算这些词与特征项的相似度,调整问句特征向量空间中的词语特征维权重,构建问句分类特征向量。实验结果表明,提出的基于语义相似度计算的中文问句特征提取方法,与传统的Bag—of—words和 TFIDF等方法比较,获得了更好的分类效果。
(2)针对在监督学习任务中,如何提高问句分类准确率的问题,提出了问句分类器集成学习的方法。首先结合词语语义相似度计算方法进行问句特征提取,然后在标记训练样本上分别用Bagging和AdaBoost方法训练多个决策树,Bagging方法通过简单投票组成集成,AdaBoost方法通过权重投票组成集成,最后由决策树集成对新问句样本进行分类测试,构建问句分类模型。实验结果表明,提出的问句分类器集成方法,分类准确率明显高于单个问句分类器。
(3)针对问句分类模型训练中,如何利用大量未标记问句样本,减少人工标注成本的问题,提出半监督学习问句分类方法。一种方法是基于EM算法的改进贝叶斯问句分类方法,采用改进贝叶斯问句分类器估计未标记样本的类别概率,在EM算法中迭代地更新模型参数,最大化未标记问句样本的类别概率,寻找最优模型。另外一种方法是单视图协同训练方法,利用集成学习多模式扰动,通过多个近邻分类器构建单视图协同训练的半监督学习问句分类模型。实验结果表明,提出的半监督学习方法,能够有效利用大量的未标记样本,提高问句分类准确率。
(4)针对半监督学习问句分类仅有少量标记问句样本时,初始分类器训练不充分的问题,提出一种基于图的问句标记传播方法。首先结合中文问句的特点,分别计算两个问句中各问句语块的相似度,以语块相似度为基础实现问句相似度的计算。然后以问句样本为图上节点,问句之间的相似度为边权重,构建图。最后从少量有标记问句样本出发,不断向图中相邻示例传播标记信息,直至达到全局稳定状态。实验结果表明,该方法能有效挖掘未标记样本的隐藏信息,分类结果优于SVM监督学习问句分类方法。
(5)针对提供新的目标领域分类模型训练的问句样本不足时,如何利用旧的源领域中大量问句样本进行学习的问题,提出采用基于实例的Boosting领域迁移学习方法。通过调整源领域训练样本的权重,符合目标领域的样本增加权重,不符合目标领域的样本则减少权重,寻找适合目标领域的样本。实验结果表明,提出的问句迁移学习方法能有效利用不同数据分布下的辅助数据,提高目标领域的分类准确率。