中文文本分类特征选择和特征加权方法研究

被引量 : 0次 | 上传用户:tyftongyunfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展和互联网的快速普及,网上电子文档信息急剧增加,文本分类成为组织和处理大量文档的关键技术。但是文本分类领域中所处理的文本数据具有一个明显的自然属性——数据的非平衡性,即同一个数据集中类别之间的文本数量相差非常悬殊,负类(大类)的文本数可能是正类(小类)文本数的成百上千倍。这种问题的存在容易引起分类器更加倾向于负类而忽视正类,从而将正类中的文档错分到负类当中,进而导致正类的分类准确率降低,最终影响到整个分类器的性能。目前,非平衡数据集的分类问题已经成为数据挖掘领域的研究热点。非平衡数据集上导致分类器倾向于负类而忽视正类的原因有三个方面:一是数据集类别样本分布不均匀;二是分类算法自身缺陷导致分类器对非平衡数据的不适应;三是现有的特征选择和特征加权方法更倾向于负类特征。前面两点已经有许多算法加以探讨,而针特征选择和特征加权方法的研究并不充分。因此,寻求一种有效的特征选择方法和特征加权方法,使其既能适应平衡的数据集又能够适应非平衡的数据集就成为文本分类中极为关键的问题。首先,本文针对信息增益特征选择方法忽略了特征在类中的词频分布和类间的文档分布的不足,引入了衡量特征词频分布和文档分布的因子;针对信息增益在非平衡数据集上更倾向于负相关特征的问题,引入比例因子来降低该类特征的贡献。其次,本文综合考虑了特征在正类和负类中的分布性质,综合四种衡量特征类别区分能力的指标,提出了一种综合特征分布比率的特征选择方法。最后,针对经典的TF-IDF特征加权方法未考虑特征在正负类中的分布情况,从而导致对稀有特征赋予较大权值,而对类别区分贡献大的特征赋予较小权重的问题,提出了TF-IDF加权方法的改进形式。为了考察本文提出的信息增益的改进方法、综合特征分布比率的特征选择方法以及改进的TF-IDF方法的有效性,本文在中文文本分类实验平台上分别采用相对平衡的数据集和非平衡的数据集,进行了多组对比实验。两种数据集上的实验结果表明,信息增益的改进方法和综合特征分布比率的特征选择方法取得比传统特征选择方法更优的降维效果,同时改进的TF-IDF特征加权方法的效果也要好于传统的TF-IDF方法。
其他文献
亚急性瘤胃酸中毒(Subacute Ruminal Acidosis,SARA)是反刍动物常见的一种代谢疾病。日粮中易发酵碳水化合物含量过高或纤维含量过低都会导致瘤胃内有机酸含量增多、缓冲液分泌
<正>随着新课程改革的推进,各科教学更加关注学生的全面发展。初中地理教学大纲明确提出:"在教学中,要根据地理学科特点,注意培养学生的地理思维能力。"所谓地理思维,即地理
旅游业正在成为中国的支柱产业和最具活力的经济增长点 ,但是由于旅游项目开发资金不足 ,项目管理水平低 ,使旅游业的开发程度和产出水平与中国旅游资源的丰富地位不相称 ,因
秦汉华夏帝国的疆域一度大举扩张。然至西汉中叶已无力推进,被迫收缩。汉代置而又弃的数边郡,标示了帝国扩张的极限所在。限制扩张的因素主要有三,其中前人忽视的因素是原住
目的:在客观准确评价脑卒中患者上肢运动功能的基础上,观察手三阳经穴针刺与经皮穴位电刺激对上肢功能重建的影响。方法:选择符合纳入标准的脑卒中患者36例,随机分为2组,分别
目的探讨选择性环氧合酶-2(COX-2)抑制剂尼美舒利不依赖COX-2途径抑制胃癌细胞移植瘤的可能机制。方法应用W estern-b lotting方法从人胃癌细胞株MKN45、AGS、MKN28、SGC-790
<正>法制现代化是国家现代化的基础,国家的现代化依赖于各行各业的现代化,教育是为国家培养未来人才的,更应走在现代化前列,因此,教育法制现代化就显得尤为重要。新中国成立
<正> 公开发表的科学论文应附有摘要,毫无疑问,科学工作者应该掌握写摘要的基本方法。本文拟就摘要的作用及其写法向科技工作者做以简要的介绍,以期对提高科技写作能力有所补
期刊