基于支持向量机的大规模数据分类研究及应用

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:shinboy_zsl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(SVM)作为一种新兴的基于统计学习理论的分类算法,具有坚实的理论基础,巧妙的算法实现和卓越的性能。其核心思想是将一个复杂的分类任务通过核函数映射使之转化成一个高维特征空间中构造线性分类超平面的问题。与其它分类算法相比,SVM方法具有全局最优、结构简单、推广能力强等优点,在大规模数据分类中具良好的应用效果。 本文首先介绍了支持向量机的理论依据、支持向量机的推导过程以及支持向量机的训练算法。由于支持向量机的学习本质是通过对偶问题来求解原问题。对于大规模的训练样本需要很大的内存来存储Hessian矩阵,如何减少在训练样本时所需的空间及时间,考虑到只有成为支持向量的样本才对决策函数起作用,结合支持向量的特性本文提出了一种新的基于支持向量机的特征选取算法以及两种样本点选取算法,通过实验证明了这些新提出的算法具有可行性和适用性。其中两种样本选取算法的几何意义都是选取最大可能成为支持向量的样本点作为训练集,且不同的样本选取算法适用于不同的数据。 支持向量机在大规模数据应用研究中首先介绍了它的背景和意义。文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性等特点,可视为文本向量数据为大规模稀疏数据。本文将支持向量机应用于稀疏数据及稠密(医学)数据中,实验表明支持向量机对稠密数据具有较好的推广能力,而支持向量机并不适合在稀疏数据的应用,本文还对这一所得的结论作了进一步的分析。
其他文献
随着经济的迅速发展,能源消耗也急剧增加,特别是我国的一些工矿企业仍存在着高能耗、高污染、低效益的现象。然而面对我国资源严重紧缺的现状,企业应尽快实现向节约节能型的
局部区域图像处理算法的研究中,交互式的算法通过加入适当的用户输入并进行快速地响应,能够准确地得到用户期望的输出结果而受到越来越多的关注。近年来提出的交互式图像处理算
近年来,随着集成电路制造技术的飞速发展,与非型闪存(NAND Flash)以其容量大、单位容量价格低的优势,被广泛应用在各类嵌入式系统中。随着NANDFlash容量进一步增大,价格进一步下
网格作为一种新型的分布式计算技术,能实现广域网络环境下计算资源、数据资源和服务资源的有效聚合和按需共享,支持以大规模计算、数据密集处理和群组协同工作为特征的应用,
随着下一代光网络规模的不断扩大,网络拓扑越来越复杂,路由计算也越来越复杂,原有的路由技术已不能满足复杂的路由计算要求。为了解决这个问题,IETF (互联网工程任务组) PCE(
传统的语音合成多侧重于单一朗读语气的研究。为了进一步提高语音合成系统的表现力,扩展语音合成系统的应用范围。本文针对自然口语中常见的疑问句和感叹句进行了深入的研究,并
学位
测试用例的设计与生成是软件测试的重点和难点之所在,其本质是如何依据一种以适当方式描述的软件规格说明来设计和生成有效的测试用例。近年来,随着面向对象技术的成熟和广泛应
在当今全球经济迅猛发展的环境下,物流的快速发展成为必然。物流是社会生产发展过程中不可缺少的前提条件,是实现商品价值的重要保证,大力发展物流业可以降低物流成本,从而实现现
二维条码技术是自动识别技术中的重要组成部分,是在一维条码无法满足信息技术发展的需求下提出的,它完成了条码技术从对“物品”进行标记描述工具,到对“物品”信息存储和识别的
自动交换光网络(ASON,Automatic Switched Optical Network)技术推动了下一代光网络智能化发展,同时也为传统的传送网络向业务网络的演进创造了条件。多业务驱动也成为通信网