用于大规模数据的在线增量型支持向量机

来源 :南京大学 | 被引量 : 0次 | 上传用户:icewangb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大规模问题引起了人们越来越多的关注。大规模数据对机器学习算法提出了更高的计算复杂性要求:包括存储和计算两个方面。  支持向量机(Support Vector Machines,SVMs)在很多领域具有很好的泛化能力。一般而言,标准支持向量机和其它的一些改进算法本质上属于批量学习的核方法,以至于它们不能很好地处理增量学习和在线学习。由于空间和时间消耗过大,支持向量机不能很好地处理大规模问题。对于某些问题则会产生大量的支持向量(Support Vectors,SVs),这通常意味着更长的测试时间。  在本文中,我们提出一种在线增量型支持向量机(Online-incremental Support Vector Machine,OI-SVM)。OI-SVM算法包括三个主要部分:学习原型点(Learning Prototypes,LPs)、学习支持向量(Learning Support Vectors,LSVs)和桥。算法首先学习输入数据的原型点并根据输入数据的概念自适应地调整原型点。第二部分主要根据前面求得的支持向量和现有的数据原型点来学习新的支持向量。第三部分是将求得的支持向量加入到现有的数据原型点。OI-SVM在公开数据集上进行测试,实验结果显示OI-SVM可以有效地解决大规模问题,能够降低计算工作量和存储容量,同时也能够实现增量学习。实验证明,本文提出的OI-SVM和现有代表性SVM方法相比,OI-SVM生成了较少的支持向量,并在不损失预测精度的情况下,较好地减少了训练时间和测试时间。
其他文献
调试是软件开发中比较复杂和困难的任务。基于频谱的缺陷定位方法通过插桩程序获得覆盖信息来推荐语句检查集,能帮助程序员更快地在规模庞大的软件中找出错误语句,从而降低了程
近几十年来,随着现代经济的发展和计算机技术的进步,数据生成的速度越来越快,数据具有的主观色彩也越来越浓,数据的存储量也越来越大,如何从这些海量的信息中挖掘出用户最感兴趣的
给定一条查询,近似查询返回数据集中与该查询相似的所有实体。在关系数据中,每个实体被表示为一个单一的记录,因此,使用基于记录级别的相似度评价方法即可用来评价关系数据中实体
定位有竞争力产品在微观经济学中有广泛的理论意义。微观经济学的一个中心思想就是如何优化配置资源,实现自身利益最大化。通过定位有竞争力产品,可以指导生产者利用有限的资源
游戏中的人工智能研究一直是人工智能领域的研究热点,在多种实际游戏场景中取得了很好的效果。本文分析了棋牌类游戏智能的研究现状,针对国内的热门牌类研究,对非完全信息下的牌
可靠组播是建立在组播传输之上的一种可靠传输机制,由于不同的组播应用对数据传输的要求也不尽相同,所以目前还没有一种可靠组播协议能够满足所有情况。  为了发展我国具有自
随着软件产业的迅速发展,软件系统的规模和和结构日益复杂,人们对于软件产品的质量要求也越来越高。基于代码的审查技术和测试技术是常见的软件质量保障技术。代码审查过程的
近年来,JavaScript作为客户端Web应用最受欢迎的编程语言,受到了学术界和工业界的广泛关注。客户端JavaScript具有三个显著特性:1)弱类型与高度动态;2)事件驱动;3)操作复杂DOM对象
高光谱成像技术是20世纪80年代初在遥感界发展起来的新兴研究领域,是上世纪末本世纪初的遥感前沿技术。高光谱遥感的光谱分辨率在可见光区高达纳米数量级,往往具有波段多的特点,在可见到近红外光谱区其光谱通道多达数十甚至数百。高光谱成像系统的传感器接收到的地面辐射,既包括了地面反射光谱信息,也记录了大气辐射传输效应引起的地面反射辐照度的变化信息。在实际传输过程中,由于受到大气分子、气溶胶等的吸收和散射,电
随着越来越多的音乐资源被上传到互联网上,使得用来处理音乐数据库的音乐信息检索系统受到了越来越多的关注。目前,很多音乐网站都是根据流派信息来组织数据库中的音乐资源,因此