论文部分内容阅读
文本分类是一门基于统计推断、自然语言处理、机器学习等理论的交叉学科,并在垃圾邮件分类、信息检索、话题跟踪、图书管理等领域广泛地运用.而特征选择是文本分类过程中一个重要的环节,优秀的特征选择方法可以大大减少样本的特征维数,避免维数灾,并在提升分类计算效率的同时,保证分类效果具有不错的查准率、召回率和F1值. 通常情况下,TFIDF常用来对一篇文本中的特征加权,本文主要将TFIDF算法的思想应用到特征选择中,即利用TFIDF对每一个类别文本内的特征加权,然后进行降维.并基于传统TFIDF特征选择的方法,进行了三点改进: 第一,对IDF部分加入影响因子m,通过改变m的大小,来控制特征在每一类文本中权重对TF与IDF的重视程度; 第二,传统方法中的特征筛选准则为:计算每一个特征在各个类别文本中的权重,然后求该特征最大权重和次大权重的差值,特征差值越大的特征越优先被保留,本文将计算特征差值的方式修改为计算特征差值占最大特征权重的比例,在实验中,该操作使得分类效果得到了明显的提升,我们将这种特征筛选准则计算的变量简称为特征差值占比; 第三,将信息熵的概念引入到特征筛选准则中,将一个特征在各个类别中分布的熵的倒数作为罚函数与特征差值占比相乘,这样如果一个特征在各个类别文本中均匀分布,它对分类的贡献并不明显,那么它的熵越大,熵的倒数越小,特征差值占比也随之变小,在特征筛选时被保留的机会也减小. 本文最后,将论文提出的特征选择方法与其它三种特征选择方法进行比较评估,分析了新方法在保留特征数不同情况下的优缺点.