论文部分内容阅读
身在电子信息量快速增长的社会,如何在海量的信息资源中迅速准确地找到所需信息,是当前信息处理领域的一个重要问题。文本分类的出现很好地解决了上述问题。文本分类是基于文本挖掘的一种组织信息的方法,它是根据大家已知的文本语料库,把未知的文本归纳到确定的那一类文本中去的过程。文本分类中,特征选择算法很重要,选取最能代表类别内容的特征可以提高分类的准确性。因此,本文研究和分析了特征选择算法中的互信息方法。面对传统的互信息算法模型,本文做了以下工作: 1.特征选择算法的模型进行了详细的分析。通过对传统的互信息算法的分析,在文本分类的特征选取时,没有考虑特征词在整个训练集中的不同类别内出现的频数和特征词在同一类别内的位置分布信息,也忽略了当特征词是高频词时带来的互信息权值是负值的问题,这致使文本分类性能较低。 2.在上述不足的基础之上,论文从特征词在类内分布不同和特征词在类间分布以及类内不同位置上分布等方面的因素考虑,同时也考虑高频词带给类别的权值是负值的问题,通过引入特征词条在类别内文本中的出现频数的因子、类内分布信息的因子以及特征项在不同类之间的分布因子,同时又引入相关的参数去修正高频词带来的评估值为负值的问题,提出一种改善的互信息(C_MI)特征选择算法。改善后的互信息模型有效地使用了特征项在类中和类别之间的分布频数。 3.本文通过利用复旦大学提供的基于JAVA版本的开源文本分类系统,通过修改相应代码实现了文本分类系统的设计。此外,并对改进的C_MI在设计的文本分类系统里进行了实验,实验结果表明,改进C_MI文本特征选择方法提高了分类的准确率。