论文部分内容阅读
互联网上的信息爆炸式的增长,其中海量的信息以文本形式存在,另外在企业、科研单位、高校等机构组织中都积累了大量的文本文档,为了管理和利用这些文本信息,文本处理技术应运而生,其中的文本分类能将文本所属的类别提取出来,为后续的文本处理打下基础,所以研究文本分类有十分重要的意义。本文基于支持向量机设计并实现了中文文本分类系统,系统划分为:训练、分类和结果展示三个部分。训练部分使用训练文档进行分类器的构建,分类部分使用分类器对测试文档进行分类处理,结果展示部分对分类结果进行评估和展示。系统包含的模块如下:①文本预处理模块,包含中文分词和停用词处理,本文采用中科院ICTCLAS分词工具实现。②特征选择模块,实现了信息增益、互信息、期望交叉熵、χ~2统计量和文本证据权重五种特征选择方法。③重计算模块,实现了TF*IDF和TF*IDF*IG两种权重计算方法。④文本表示模块,采用向量空间模型对文本进行表示。⑤分类器构建模块,实现了线性、多项式、径向基和两层感知器核函数并基于“一对多”思想进行分类器的训练。⑥分类处理模块,使用训练好的分类器依次对文本进行分类处理。⑦结果展示模块,按照类别分组显示分类结果,并采用查全率、查准率和F1值评估各个类别的分类性能。本文基于Sogou语料进行实验,对不同的概率估算方式、特征选择方式、特征选择方法、权重计算方法、核函数种类的分类性能进行对比和分析。