论文部分内容阅读
文本分类是一个复杂的系统工程,本文针对中文文本分类过程中的一些关键技术进行了详细的研究,主要包括中文文本预处理、特征降维、特征加权、分类模型构造和分类性能评估等方面,重点对特征降维过程和特征加权步骤所用到的算法做了深入的分析和探讨。 文本分类过程中特征空间的高维性是分类任务的一个巨大挑战,面对高维的文本特征,降维处理必不可少。常用的特征降维技术有两种:特征抽取和特征选择。相比于特征抽取,特征选择可以更好的解决文本数据特征高维性和稀疏性的难题,因而被广泛使用在文本分类系统中。本文首先介绍了几种目前常用的特征选择算法,主要有文档频率、信息增益、互信息、x2统计、文本证据权等,然后对它们各自的原理和优缺点进行了比较和分析,最后在其基础上提出了一种基于综合文档频度和类别隶属度的特征选择算法,该算法的优势在于它可以更好的适应不均衡数据集上特征选择,同时考虑了特征词频和类别相关性的因素,并有效抑制了稀有特征对分类任务的影响。 特征加权是文本分类过程中的重要步骤,对分类结果的好坏至关重要。特征降维处理之后,原始特征空间中的特征词对类别区分的贡献并不是都一样,它们的作用有大有小,因此就需要按照贡献程度的大小为每个特征词分配相应的权重,以提高分类精度。目前,常用的特征加权算法有布尔权重、TF-IDF权重和基于熵的概念权重,其中TF-IDF加权算法最为经典,在分类系统中广泛使用。但TF-IDF也存在着一些不足,本文就其不足之处展开了详细的分析和讨论,并在其基础上提出了一种结合类间集中度和类内分散度的改进方法——TF-IDF-Cac-Dic,然后通过一组详细的算例分析证明了改进方案的优越性。 为验证本文所提出两种理论方案的可行性和有效性,本文利用中科院张华平博士研制的汉语语法分析系统ICTCLAS和国外开源的数据挖掘软件Weka设计并实现了一个高效的中文文本分类系统。通过两组对比实验,采用多项评价指标分析了实验结果,结果表明本文提出的基于综合文档频度和类别隶属度的特征选择算法比其他常用的特征选择方法表现出更好的特征选择效果,同时验证出TF-IDF-Cac-Dic加权方法比传统的TF-IDF方法性能更优。