改进的SVM+算法在文本分类中的应用研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:suli115296303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文从理论以及实验两个层次对支持向量机算法进行了深入的研究,同时将改进算法运用在文本分类中。首先,本文详细的介绍了文本分类系统的总体模型,包括:文本表示、特征选择方法、文本分类算法。认真研究了支持向量机算法的基本原理,并且对支持向量机训练算法中训练时间长和消耗内存大的缺点加以讨论,随后详细的讨论了SVM训练算法的改进算法,包括:Chunking算法、大规模分解法。其次详细的分析了SMO序列最小化优化算法,同时详细的研究了GeneralizedSMO训练算法在训练时间上要优于SMO算法,由于SMO算法在有限的步骤之内不能得到一个精确的值。分析了在训练样本数相差比较大的情况下基于不同的惩罚系数C+和C-算法,并详细的研究了新学习理论:基于特权信息学习。该学习理论在现有的机器学习理论基础上加入了人类教学的元素,在训练阶段加入信息中隐藏的解释、意见、比较等等。基于以上训练优化算法和新学习理论基础上,设计了本文核心算法。最后本文利用搭建的系统,对改进算法的性能作了详细的实验研究。在特征提取上去除了一些不具代表性的特征项,在特征选择上基于tf-idf的思想去除信息增益值小于设定的阈值的特征词。核函数选取高斯径向基核函数,同时在文章中给出了改进算法的核心伪代码。为了测试改进算法的优越性,实验对比了改进算法的准确率、召回率和训练时间。实验表明改的算法在训练时加入对两个类别施加不同惩罚系数的方法,该算法可以较好的处理了文本分类中非平衡数据集的问题。改进算法加入了文本特权信息不但提高了GSMO算法中二次函数的收敛速度,而且提高了分类效果。但由于改进的算法在每次更新中需要更新四个拉格朗日乘子,以至于GSMO算法每次迭代的速度都要比改进的算法快。C+,C-取值对文本分类的准确率、召回率和训练时间影响较小。
其他文献
在房建工程中,脚手架施工是重要的组成部分,如果脚手架施工存在质量问题,势必影响施工人员的人身安全和工程安全性。现阶段,扣件式钢管脚手架在工程项目中的应用较广泛,为保
文章介绍天然高分子材料甲壳质和几丁聚糖的优异性质和广泛应用,由于它神奇性能广泛应用于医疗医药、食品、农业、轻工等行业和领域,研究开发可带动相关产业的发展,是21世纪
介绍了钢管生产线用激光切割装置的工作原理、设备组成、作业流程及应用效果。应用结果表明;激光切割钢管,断面质量满足生产要求;工模具成本大幅降低;安装时生产线改动小,施
在“以患者为中心”的现代护理工作中,如何增进患者的舒适程度是护理学所要研究的重要课题。舒适护理是一种整体的、个性化的、创造性的、有效的护理模式。其目的是使患者在生
组织中冲突现象不断发生,影响了组织的绩效,也降低了组织员工的幸福感,甚至会影响社会的整体发展。本研究旨在考察组织中一线员工的冲突现状及一线管理者的冲突管理状况,并设
黄荆子为马鞭草科牡荆属植物黄荆Vitex negundo L.的干燥成熟果实。具有祛风除湿,行气止痛的功效,在民间多用于治疗类风湿性关节炎(rheumatoid arthritis, RA)等疾病,疗效显
功能性便秘分为3型:慢传输型便秘(STC)、出口梗阻型便秘(OOC)和混合型便秘(MIX)[1]。STC属于功能性便秘的一种,约占45.5%,与结肠蠕动功能减慢、结肠动力低下与肠壁内VIP、SP能神经元
本文就企业诚信制度建设等相关问题做出讨论,作者认为诚信理念的树立是诚信建设的基础,在企业经营过程中得到强化,把企业的每一位员工和企业本身当作诚信经营的载体,在实践的