论文部分内容阅读
随着信息产业特别是互联网的高速发展,人们可以很容易地从互联网、数字图书馆以及公司内部网络获得海量的数据。这些数据按照其组织形式可分为:结构化的数据(如数据库记录等)、半结构化的数据(xml文档,有相对固定格式的各类格式化文档)和无结构数据(如中文文本等)。
面对浩如烟海的数据,需要使用数据挖掘技术从数据中抽取感兴趣的信息。对于结构化的数据,数据挖掘工作比较直观,但是对于一些非结构化数据(包括半结构化数据中的非结构化数据),尤其是我们日常生活一个重要的信息来源——中文文本,需要做特殊处理。而中文文本分类正是中文数据挖掘的一个重要基础。
在本论文中,先对当前文本分类的发展现状和相关方法做简要的回顾。
文本分词是中文文本分类的基础。本论文首先实现了基于语料库的统计分词系统。然后对文本进行预处理,去掉弱词性词汇,只保留2-4个字的名词和动词。
对文档进行了预处理后,按照一般文档分类过程依次给出了新的特征选择和特征权重的计算方法,并据此设计了一种基于贝叶斯原理的快速分类器。
特征选择:提出了一种新的基于词频、互信息和类别信息的综合特征选择算法,能够去掉大量的噪声,提高分类效率。
特征权重:分析了传统TF-IDF权重函数的不足,提出利用特征选择函数值代替IDF进行权值调整,并在词频统计上进行了改进。
分类算法:根据贝叶斯原理,利用特征选择函数值衡量特征词与类别的相关性,结合权重计算方法判断测试文本的类别,比传统的贝叶斯算法更加简单有效。
在论文的最后,通过对一组从高校BBS上收集的文档集试验来验证本论文提出的一系列处理方法的有效性。试验结果表明本论文所提出的中文文本分类方法比较高效。