基于TFIDF的文本分类算法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:A5151
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是一门基于统计推断、自然语言处理、机器学习等理论的交叉学科,并在垃圾邮件分类、信息检索、话题跟踪、图书管理等领域广泛地运用.而特征选择是文本分类过程中一个重要的环节,优秀的特征选择方法可以大大减少样本的特征维数,避免维数灾,并在提升分类计算效率的同时,保证分类效果具有不错的查准率、召回率和F1值.  通常情况下,TFIDF常用来对一篇文本中的特征加权,本文主要将TFIDF算法的思想应用到特征选择中,即利用TFIDF对每一个类别文本内的特征加权,然后进行降维.并基于传统TFIDF特征选择的方法,进行了三点改进:  第一,对IDF部分加入影响因子m,通过改变m的大小,来控制特征在每一类文本中权重对TF与IDF的重视程度;  第二,传统方法中的特征筛选准则为:计算每一个特征在各个类别文本中的权重,然后求该特征最大权重和次大权重的差值,特征差值越大的特征越优先被保留,本文将计算特征差值的方式修改为计算特征差值占最大特征权重的比例,在实验中,该操作使得分类效果得到了明显的提升,我们将这种特征筛选准则计算的变量简称为特征差值占比;  第三,将信息熵的概念引入到特征筛选准则中,将一个特征在各个类别中分布的熵的倒数作为罚函数与特征差值占比相乘,这样如果一个特征在各个类别文本中均匀分布,它对分类的贡献并不明显,那么它的熵越大,熵的倒数越小,特征差值占比也随之变小,在特征筛选时被保留的机会也减小.  本文最后,将论文提出的特征选择方法与其它三种特征选择方法进行比较评估,分析了新方法在保留特征数不同情况下的优缺点.
其他文献
该文从这一要求出发,简要地阐述了社会发展项目评价、社会发展状况评价的内容并把决策支持系统引入社会发展项目评价、社会发展水平评价和资金调拨.文章明确了SDDSS涉及的决
随着我国煤炭大企业、大集团战略的实施,煤炭企业间的联合重组加速推进,一大批航母型的煤炭大集团如雨后春笋般地快速组建,加快企业内部的管理融合、文化融合,推进企业管理创
该文中,作者在对李代数根系充分剖析的基础上,利用换位子公式这一强有力的工具,研究任意域F上Chevalley群L(F)的子群结构,得到以下两方面的结果:(1)、当K是F的子域且[F:K]差
期权是一种重要的金融衍生产品,它是购买方支付一定的期权费后所获得的,在将来某一确定的时间买卖一定数量的标的资产的选择权。期权定价理论是20世纪经济学领域最伟大的发现之
本篇论文研究的是一类地震勘测建模中的反问题,在经典的确定性问题基础上,推广加入了随机噪声的影响,并推导出了相应的一些理论和数值模拟结果。为了根据勘测数据,反推声波阻抗,文
控制理论和应用的发展已经使人们充分认识到鲁棒控制研究的重要性.经过众多学者的努力,已经获得了很多丰富有价值的成果.但与控制实践相比,还相差甚远.怎样解决不确定性在控
该研究报告由两部分-共五章组成.第一部分由三章组成,讨论时间序列中的条件异方差的检验问题.在第一章中,对具有条件异方差的一阶门限自回归模型,构造了条件异方差Kolmogorov
该文主要研究当前组合矩阵论中非常活跃且在物理,化学,生物和计算机网络等学科中有着十分广泛应用的两个重要课题-拉普拉斯矩阵和完全正矩阵.关于图的拉普拉斯矩阵,该文得到