论文部分内容阅读
本文从理论以及实验两个层次对支持向量机算法进行了深入的研究,同时将改进算法运用在文本分类中。首先,本文详细的介绍了文本分类系统的总体模型,包括:文本表示、特征选择方法、文本分类算法。认真研究了支持向量机算法的基本原理,并且对支持向量机训练算法中训练时间长和消耗内存大的缺点加以讨论,随后详细的讨论了SVM训练算法的改进算法,包括:Chunking算法、大规模分解法。其次详细的分析了SMO序列最小化优化算法,同时详细的研究了GeneralizedSMO训练算法在训练时间上要优于SMO算法,由于SMO算法在有限的步骤之内不能得到一个精确的值。分析了在训练样本数相差比较大的情况下基于不同的惩罚系数C+和C-算法,并详细的研究了新学习理论:基于特权信息学习。该学习理论在现有的机器学习理论基础上加入了人类教学的元素,在训练阶段加入信息中隐藏的解释、意见、比较等等。基于以上训练优化算法和新学习理论基础上,设计了本文核心算法。最后本文利用搭建的系统,对改进算法的性能作了详细的实验研究。在特征提取上去除了一些不具代表性的特征项,在特征选择上基于tf-idf的思想去除信息增益值小于设定的阈值的特征词。核函数选取高斯径向基核函数,同时在文章中给出了改进算法的核心伪代码。为了测试改进算法的优越性,实验对比了改进算法的准确率、召回率和训练时间。实验表明改的算法在训练时加入对两个类别施加不同惩罚系数的方法,该算法可以较好的处理了文本分类中非平衡数据集的问题。改进算法加入了文本特权信息不但提高了GSMO算法中二次函数的收敛速度,而且提高了分类效果。但由于改进的算法在每次更新中需要更新四个拉格朗日乘子,以至于GSMO算法每次迭代的速度都要比改进的算法快。C+,C-取值对文本分类的准确率、召回率和训练时间影响较小。