论文部分内容阅读
随着信息技术的飞速发展和互联网的快速普及,网上电子文档信息急剧增加,文本分类成为组织和处理大量文档的关键技术。但是文本分类领域中所处理的文本数据具有一个明显的自然属性——数据的非平衡性,即同一个数据集中类别之间的文本数量相差非常悬殊,负类(大类)的文本数可能是正类(小类)文本数的成百上千倍。这种问题的存在容易引起分类器更加倾向于负类而忽视正类,从而将正类中的文档错分到负类当中,进而导致正类的分类准确率降低,最终影响到整个分类器的性能。目前,非平衡数据集的分类问题已经成为数据挖掘领域的研究热点。非平衡数据集上导致分类器倾向于负类而忽视正类的原因有三个方面:一是数据集类别样本分布不均匀;二是分类算法自身缺陷导致分类器对非平衡数据的不适应;三是现有的特征选择和特征加权方法更倾向于负类特征。前面两点已经有许多算法加以探讨,而针特征选择和特征加权方法的研究并不充分。因此,寻求一种有效的特征选择方法和特征加权方法,使其既能适应平衡的数据集又能够适应非平衡的数据集就成为文本分类中极为关键的问题。首先,本文针对信息增益特征选择方法忽略了特征在类中的词频分布和类间的文档分布的不足,引入了衡量特征词频分布和文档分布的因子;针对信息增益在非平衡数据集上更倾向于负相关特征的问题,引入比例因子来降低该类特征的贡献。其次,本文综合考虑了特征在正类和负类中的分布性质,综合四种衡量特征类别区分能力的指标,提出了一种综合特征分布比率的特征选择方法。最后,针对经典的TF-IDF特征加权方法未考虑特征在正负类中的分布情况,从而导致对稀有特征赋予较大权值,而对类别区分贡献大的特征赋予较小权重的问题,提出了TF-IDF加权方法的改进形式。为了考察本文提出的信息增益的改进方法、综合特征分布比率的特征选择方法以及改进的TF-IDF方法的有效性,本文在中文文本分类实验平台上分别采用相对平衡的数据集和非平衡的数据集,进行了多组对比实验。两种数据集上的实验结果表明,信息增益的改进方法和综合特征分布比率的特征选择方法取得比传统特征选择方法更优的降维效果,同时改进的TF-IDF特征加权方法的效果也要好于传统的TF-IDF方法。