基于SVM的中文文本分类系统的设计与实现

被引量 : 0次 | 上传用户:killsmagicer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上的信息爆炸式的增长,其中海量的信息以文本形式存在,另外在企业、科研单位、高校等机构组织中都积累了大量的文本文档,为了管理和利用这些文本信息,文本处理技术应运而生,其中的文本分类能将文本所属的类别提取出来,为后续的文本处理打下基础,所以研究文本分类有十分重要的意义。本文基于支持向量机设计并实现了中文文本分类系统,系统划分为:训练、分类和结果展示三个部分。训练部分使用训练文档进行分类器的构建,分类部分使用分类器对测试文档进行分类处理,结果展示部分对分类结果进行评估和展示。系统包含的模块如下:①文本预处理模块,包含中文分词和停用词处理,本文采用中科院ICTCLAS分词工具实现。②特征选择模块,实现了信息增益、互信息、期望交叉熵、χ~2统计量和文本证据权重五种特征选择方法。③重计算模块,实现了TF*IDF和TF*IDF*IG两种权重计算方法。④文本表示模块,采用向量空间模型对文本进行表示。⑤分类器构建模块,实现了线性、多项式、径向基和两层感知器核函数并基于“一对多”思想进行分类器的训练。⑥分类处理模块,使用训练好的分类器依次对文本进行分类处理。⑦结果展示模块,按照类别分组显示分类结果,并采用查全率、查准率和F1值评估各个类别的分类性能。本文基于Sogou语料进行实验,对不同的概率估算方式、特征选择方式、特征选择方法、权重计算方法、核函数种类的分类性能进行对比和分析。
其他文献
计算量子化学是一门量子化学、计算数学、计算机技术和化学的各分支学科综合交叉的新学科,其主要目的是利用有效的数学近似方法以及计算机程序来模拟、计算和分析量子化学中的
语篇分析作为当代语言学的一个分支,把语篇作为重要的研究对象。林肯的《葛底斯堡演说》是英文演说词中的珍品。本文运用语篇分析的方法,从句子关系和语义关系两方面对该演说
布鲁氏菌是重要的人畜共患病病原菌 ,其鉴定和检测方法受到国内外的普遍重视。本文对近年来布鲁氏菌 DNA同源性及其内切酶图谱分析、血清学检测、PCR扩增、核酸探针杂交等鉴
残疾人是人类多样性的一种表现,是人类在发展中付出的社会代价。一个国家的残疾人事业发展状况是衡量该国的经济文化发展程度以及人权保障程度的重要标尺。残疾人社会保障制度
随着社会的进步和科技的发展,我国机动车的保有量在不断的提高,这既是我国人民生活水平显著提高的象征,同时也对人民群众的人身安全构成极大的威胁。在道路交通事故不断递增的形
运用计算流体动力学方法,对全地形履带式卫生急救车车厢内的气流组织和温度分布进行了数值模拟,分析了车厢内气流组织形式和温度分布规律,同时将数值模拟结果与试验结果进行
近些年来,为了适应我国社会主义市场经济的迅速发展,我国各省市的原国有独资的省、市民航机场管理公司和民航管理局纷纷进行改制转换形成股权多元化民航机场集团公司,一定程度上
工程中要求混凝土具有良好的耐久性能。在混凝土中引入合理的含气量能使混凝土使用性、耐久性(抗冻性)、抗渗性都有较大幅度的提高。上世纪30年代发展起来的引气混凝土技术,是混
随着经济社会的发展,残疾人作为任何社会的弱势群体受关注的程度也在不断增加。社会保障制度作为社会安定发展的基石是每一个社会成员平等参与社会活动的基础,更是各种弱势群
固井工程是钻井完井工程中的一个关键环节,是后续安全、钻进和油气开采的重要保证。然而对于孔隙性低压地层、渗漏性地层和诱导裂缝性地层,固井时容易出现漏失低返,常规低密