论文部分内容阅读
文本分类是文本挖掘的一个重要的研究方向,用机器学习方法进行特征选择对文本分类起关键作用.文章比较了文档频数、信息增益、互信息、恐统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择方法.采用人民网的中文文本语料和Rocchio算法对以上的特征选择方法分别进行了评估实验,实验结果表明,几率比的性能优于其它特征选择方法.表1、参5.