论文部分内容阅读
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。分析了词频法和文档频法并总结了其缺陷,给出了一个改进的文档频方法;引进粗糙集理论,提出了一个属性约简算法;最后提出了一个新的特征选择方法。该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余。仿真结果表明该特征选择方法性能较好。