论文部分内容阅读
网络信息时代的飞速发展使得计算机在生活、工作中应用日益广泛,Internet中生成、累积的网络交互文本数据量庞大,信息资源数量以指数级增加。海量数据中大部分对研究实际问题意义并不显著,数据规模巨大使传统文本分析处理方法难以达到预期效果。因此,如何从海量、繁杂数据中准确、快速地获取目标数据进行处理、分析,得到价值密度高的数据信息,是当前极具挑战的问题。本课题旨在改进现有文本分类中的特征选择方法,使其能够满足在种类繁多的文本信息更为准确的保存具有类别代表性的特征子集,从而达到在海量冗余数据中准确、全面、高效地分类出目标信息。本文完成的主要工作如下:(1)分析面向大数据文本分类中特征选择要求,重点研究了2?统计(Chisquare,CHI)算法,针对经典CHI算法在选择特征时对低频词具有偏向性,提出了将CHI值和特征在指定类别文档内词频相结合的方法,同时分析特征的类别分布情况对选择特征的影响,通过引入类间集中度、类内离散度的概念,在CHI公式中加入修正因子。(2)为提高文本分类效果,在向量空间模型(Vector Space Model,VSM)的构建上,选择词频-逆文档频率方法(Term frequency–Inverse document frequency,TF-IDF)作为特征权重的计算方法,将特征权重值归一化。(3)选择支持向量机(Support Vector Machine,SVM)算法实现分类器,在训练SVM分类器时利用十折交叉验证法(10-fold Cross Validation)和网格搜索法,完成对惩罚因子C和RBF核函数参数γ的寻优,以获得最优分类性能。将改进CHI方法应用到特征选择模块,对比改进方法对分类结果的影响。利用以上研究成果,设计完成一个面向通信企业相关新闻分类的文本分类系统。本文利用实现的分类系统,选用复旦语料集对经典的IG方法、CHI方法、文献[50]中提出的HBM方法和本文改进的CHI方法设计实验对比。实验证明,改进的CHI方法的查准率和F1值优于其他对比算法。将本文研究成果应用在对通信企业相关政策法规类新闻的分类系统中,从而证明了本文改进方法的正确性、有效性以及实用价值。