中文问句分类研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:william1212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相对于传统的关键词方式搜索引擎,问答系统允许用户以自然语言的方式提问,自动分析用户的问题,为用户直接返回所需要的答案,是新一代的智能搜索引擎,是当前的研究热点。   问句分类是问答系统的一个重要组成部分,是答案定位和答案抽取的基础,问句分类结果直接影响系统返回问题答案的准确率。目前问句分类研究主要集中在统计机器学习的监督学习问句分类方面,但在建立分类模型时,存在问句特征向量空间数据稀疏,以及需要大量的人工标注问句样本提供学习等问题。因此,本文围绕中文问句分类展开研究和探讨,主要在中文问句分类特征提取、多分类器集成学习、半监督学习问句分类、基于图的问句标记传播,以及问句的领域迁移学习方面研究,取得了以下特色和创新成果:   (1)针对问句分类特征提取困难和特征向量空间数据稀疏的问题,提出基于语义相似度计算的中文问句特征提取方法。首先从语料库中选取高频关键词、领域词和疑问词等作为特征项,然后通过句法分析获得问句主干词,利用词语语义相似度方法计算这些词与特征项的相似度,调整问句特征向量空间中的词语特征维权重,构建问句分类特征向量。实验结果表明,提出的基于语义相似度计算的中文问句特征提取方法,与传统的Bag—of—words和 TFIDF等方法比较,获得了更好的分类效果。   (2)针对在监督学习任务中,如何提高问句分类准确率的问题,提出了问句分类器集成学习的方法。首先结合词语语义相似度计算方法进行问句特征提取,然后在标记训练样本上分别用Bagging和AdaBoost方法训练多个决策树,Bagging方法通过简单投票组成集成,AdaBoost方法通过权重投票组成集成,最后由决策树集成对新问句样本进行分类测试,构建问句分类模型。实验结果表明,提出的问句分类器集成方法,分类准确率明显高于单个问句分类器。   (3)针对问句分类模型训练中,如何利用大量未标记问句样本,减少人工标注成本的问题,提出半监督学习问句分类方法。一种方法是基于EM算法的改进贝叶斯问句分类方法,采用改进贝叶斯问句分类器估计未标记样本的类别概率,在EM算法中迭代地更新模型参数,最大化未标记问句样本的类别概率,寻找最优模型。另外一种方法是单视图协同训练方法,利用集成学习多模式扰动,通过多个近邻分类器构建单视图协同训练的半监督学习问句分类模型。实验结果表明,提出的半监督学习方法,能够有效利用大量的未标记样本,提高问句分类准确率。   (4)针对半监督学习问句分类仅有少量标记问句样本时,初始分类器训练不充分的问题,提出一种基于图的问句标记传播方法。首先结合中文问句的特点,分别计算两个问句中各问句语块的相似度,以语块相似度为基础实现问句相似度的计算。然后以问句样本为图上节点,问句之间的相似度为边权重,构建图。最后从少量有标记问句样本出发,不断向图中相邻示例传播标记信息,直至达到全局稳定状态。实验结果表明,该方法能有效挖掘未标记样本的隐藏信息,分类结果优于SVM监督学习问句分类方法。   (5)针对提供新的目标领域分类模型训练的问句样本不足时,如何利用旧的源领域中大量问句样本进行学习的问题,提出采用基于实例的Boosting领域迁移学习方法。通过调整源领域训练样本的权重,符合目标领域的样本增加权重,不符合目标领域的样本则减少权重,寻找适合目标领域的样本。实验结果表明,提出的问句迁移学习方法能有效利用不同数据分布下的辅助数据,提高目标领域的分类准确率。  
其他文献
我国民族地区有许多独特的农产品,它们或营养丰富,有很高的药用价值;或民族味浓厚,有很高的观赏价值。但因种种原因,民族地区的特色农产品得不到很好的推广,仅局限于民族地区
永磁同步电机以其高效率,高功率密度的特点,成为目前混合动力汽车驱动电机中最有优势的电机类型,具有广阔的应用前景。  与此同时,为了实现混合动力汽车动力性能和能源利用方面
强磁场作为一种极端的科学实验条件,在材料科学、生物医学、物理学等领域有着非常重要的应用。强磁场又可以分为稳态强磁场和脉冲强磁场。脉冲磁场由于磁场脉宽短,磁体功耗和发热问题得到很大程度的缓解,再加上其分析设计相对简单、成本低廉、操作容易、维护简单,因此得到了迅速的发展,成为了现代科学研究中重要的实验工具之一,各种依托于脉冲强磁场背景的科学实验得到了飞速发展。随着这些科学研究的深入和发展,对于脉冲强磁
本文通过对荣华二采区10
近年来,本体这个概念在智能信息集成、Internet信息检索、知识管理、语义Web、数字图书馆等众多领域广为流传。本体之所以能够流行的一个主要原因是由于本体提供了人与计算机
一维三峰映射中首次出现了不满足结合律的星花积,从而引起了传统的Feigenbaum相继比率发散的现象。本文研究了一维三峰和四峰映射中的超收敛行为,结果表明:当星花积满足左结合律
发电权交易能够优化资源配置,促进电力工业的节能减排,实现买卖双方及社会的多赢,成为电力市场改革新的热点。发电权交易意味着机组出力的变化,从而引起系统潮流的变化,因此,交易的形成必须通过阻塞管理环节,以保障系统的安全运行。本文介绍了发电权交易的背景,指出了发电权交易传统模型的不足之处,并从算法入手进行了改进。由于不同交易在某些阻塞线路上产生的潮流变化有可能反向,改进算法根据发电权买卖双方的报价差额形
能量变换器是现代高压电缆技术与发电机技术结合的一种新型高压发电机,采用高压交联聚乙烯(XLPE)电缆作为定子绕组,这种革新结构使其能够输出高电压,从而可以直接并网。然而,由于定子绕组直接由电缆绕制而成,其定子冲片结构与传统发电机有较大不同,因此,对能量变换器的电磁设计过程进行系统地研究是极为必要的。本文针对能量变换器电磁设计过程中主要尺寸的确定方法和电缆绕组电负荷的确定规律进行了深入地研究。本文首
近十年来,随着我国经济的高速发展,全国电能消耗量逐年快速增长,热电厂的生产任务加重,热电厂的稳定运行任务艰巨。热电厂灰渣泵系统是热电厂排废系统的关键环节,其运行可靠性直接
现阶段,主动和半主动悬架系统技术应用日益普遍。由于传统的被动式液压减振器存在油液易乳化、临界速度低、噪声大等缺点,不再适用于新型悬架系统,可调阻尼减振器的研究便获