论文部分内容阅读
特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的。对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好。