数据归一化方法对提升SVM训练效率的研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:wzy4225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machines,SVM)是基于统计学习理论,建立在结构风险最小化原理和VC维理论基础上的一种机器学习方法。近几十年来以其优秀的分类能力在很多领域得到广泛应用,至今仍然是机器学习领域最热门的研究之一,众多的国内外学者都致力于SVM训练效率的提升。数据归一化是训练支持向量机必须的数据预处理过程。常用的归一化策略有[-1,+1]、N(0,1)等方法,但现有文献尚未发现关于这些常用归一化方法科学依据方面的研究。本文通过对SVM中顺序最小优化算法运行机制的研究,发现高斯核函数会受到数据样本属性值的影响,数据属性值过大或过小都会使高斯核函数的参与度降低。数据归一化恰好能够将数据限定在某一范围内,使其能够更好地配合高斯核半径,从而避免最优分类超平面过于崎岖。论文以经验性的实验对数据归一化的内在机理、归一化与不归一化对训练效率和模型预测能力影响等方面开展了探索和研究。论文选择标准数据集,对原始未归一化、不同方法归一化、人工非归一化、任选数据属性列等情况下的数据分别进行了SVM训练,并记录目标函数值随迭代次数的变化、训练时间、模型测试及k-CV性能等信息。概括起来取得了如下的研究成果:(1)在传统的顺序最小优化算法(SMO)的基础上,总结出了目标函数值及其变化量的表达式,并使用C++11技术进行了算法编程,实现了目标函数值及其变化值和训练时间及测试正确率的计算和输出。对使用高斯核函数的顺序最小优化算法的典型研究文献进行深入分析,确定了高斯核半径的最优值λ以及违反KKT条件的精度值κ。实验结果表明所确定的λ值和κ值能够达到最好的泛化能力,并通过对输出数据变化曲线的分析得出有根据的结论:可以通过数据的预处理来改进SVM训练效率。(2)对数据预处理的方式方法进行了深入研究,尤其是对最值归一化、中值归一化、标准分数归一化三种不同数据归一化方法进行了应用实现,使其与SVM分类机进行了有机融合。实验结果表明数据归一化方法可以弥补高斯核函数核半径认为选择上的不足,使高斯核函数更加理想地应用于SVM分类。(3)对标准实验数据集以三种不同的数据归一化方法进行了预处理,设计了多种实验方式,利用k-CV验证方法,对训练时间以及测试正确率进行了详细记录和比较。最终通过分析数据归一化后SVM训练效率的变化得出了数据归一化可以提升SVM训练效率的较为根本的内在机制。(4)通过数据归一化对SVM训练效率影响的分析以及对分类能力差异的比较,分析出了最能提升SVM训练效率的数据归一化的最优限定原则,即将各数据属性的值控制在常规的可比拟的数值范围内,如:[-0.5,+0.5]~[-5,+5]、N(0,1)~N(0,5)等。通过大量的实验分析验证,数据归一化能够有效的提升SVM的训练效率。本文为SVM以及一般机器学习算法的数据归一化提供了科学依据。
其他文献
作物生长模拟模型是揭示作物生长发育与自然环境以及栽培管理技术之间定量关系的数学模型,它利用计算机软件技术对作物生长过程进行动态模拟和预测。因此,构建作物模型软件系
图像分割是模式识别、图像理解、计算机视觉等领域的关键步骤,在图像处理中占据重要的位置。从一般意义上来说,图像分割是利用图像的颜色、灰度值、纹理、形状等特征或特征集
随着Flickr、Facebook等社交网站的流行,图像资源正在以惊人的速度不断增长,如何从海量的图像中快速有效地提取用户所需要的资源已成为人们工作和生活中必须解决的关键问题。
多光谱图像配准是将不同时间、不同传感器、不同视角及不同拍摄条件下获取的两幅或多幅图像进行匹配。多光谱序列图像提供了比单一图像更丰富的信息,因此研究多光谱序列图像的
随着信息产业的快速发展,人们对信息安全的要求越来越高,特别是随着电子商务的兴起,使得信息的加密、认证以及安全传输等变得尤为重要。消息认证码(Message Authentication C
深度学习(Deep Learning)目前被广泛应用在很多科研领域,并且在工业生产中也得到了很多的应用,都取的了很多不错的效果。最近几年,深度学习算法的研究非常热门,已经有研究人
顺应三网融合快速发展,酒店原客房电视系统已经发生质的变化,从“看”电视,转变成“用”电视,目前成为新一代智能电视系统的标准功能,它为酒店提供数字化、智能化及个性化服务带来
随着汽车电子在汽车工业的应用逐渐深入,以汽车电子为基础的车载信息娱乐系统(IVI)已成为现代汽车不可或缺的组成部分。然而现有的各类IVI却存在着诸多不足:系统封闭、代码闭
随着Web服务技术的发展,越来越多的浏览器/服务器(Browser/Server,B/S)结构和客户机/服务器(Client/Server,C/S)结构的应用系统被用于政府信息化建设、信息系统和商业流程中,但是这两
随着我国高等教育事业的发展,高校毕业生数量逐年增长,高校毕业生的就业问题已经引起社会及相关学者的广泛关注。如何通过科学合理的方法为毕业生提供就业指导和帮助,提高毕