基于云计算平台的代价敏感集成学习研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:hermes262
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中存在着很多不平衡类数据分类问题,同时计算机和互联网技术的快速发展,使得现实生活领域的数据膨胀速度异常迅猛,因而大数据时代的不平衡学习面临着更为严峻的挑战,如何快速高效地对海量不平衡数据进行分析处理,历来是数据挖掘领域的研究热点。本文首先对不平衡学习中的PAC学习模型进行了研究,针对传统PAC学习模型边界不受样本不平衡率和错误分类代价影响的问题,提出了基于代价敏感的PAC学习模型。实验结果表明,可PAC学习所需的训练样本数目随着错分代价比例的增大而增大,随着正类样本比例的减小而增大,说明了基于代价敏感的PAC学习模型的正确性和有效性。此外,针对现实生活中海量不平衡数据的分类问题,本文设计了一种基于云计算平台的代价敏感集成学习分类算法。首先Hadoop云计算平台对海量数据进行划分用于并行学习,同时结合代价敏感的思想对学习得到的基分类器进行加权集成,实现了云计算平台上的代价敏感集成学习模型。仿真实验表明该模型能够明显提高少数类的查全率,同时Hadoop的并行机制使得云平台坏境下的集成学习时间较集中式环境有大幅度的缩减,进一步提高了海量不平衡数据分类问题的学习效率。
其他文献
云存储正在因为它的可扩展性、方便性和低成本等诸多优点而变得越来越流行。它通过租用基本设施来提供对于文件的服务,包括允许用户在服务器上存储文件,同步位于服务器和用户
近年来我国突发事件频发,生命财产损失重大。如何快速安全地疏散人群具有重要意义。现有数据大都从真实的日常演习获得,突发事件中人群的行为和表现并不能完全真实的被反映。
随着电子商务的发展,出现了越来越多的用户到用户模式的双向推荐,传统个性化推荐的项目到用户的推荐已经无法满足用户的需求,这就催生了时下以在线交友网站为代表的互惠推荐
学习系统泛化能力的提升一直是机器学习研究的重点。单一分类器无法避免的局限和不足导致其分类性能的提升遇到瓶颈。集成学习作为新的机器学习模式,采用若干个单一分类器预
随着互联网技术的飞速发展以及国家对公共基础设施建设的大力支持,目前全国大部分地区已经实现了WiFi全面覆盖。然而WiFi网络的开放性使其极易遭受各种类型的攻击,比如嗅探攻击,恶意接入点攻击等等。最典型的场景是密钥分享,攻击者在室外接收到室内的WiFi信号,凭借着窃取来的密钥,他仍然可以获得接入WiFi的权限。究其根本,原因在于身份验证的范围远远大于实际合法用户的范围,从而给了非法攻击者与合法用户等
学位
机会网络是一种新型的自组织网络,它的特点是节点间链路频繁断裂,整个网络通常处于不连通的状态,这样就导致传统无线自组织网络中的路由协议无法运行,所以在机会网络中节点通常采
伴随着网络信息技术的飞速发展,互联网+模式的迅速兴起,人们对于网络信息的获取与需求呈指数般增长。除了对文字信息的需求外,对于图像内容信息的认知与理解也逐渐为人们所重
现实中的很多问题可以转化为数据挖掘中的数据分类问题,这使得数据分类技术的应用领域十分广泛,例如商业保险、网络测量、气象预报、生物信息等。然而,随着信息技术的不断发展,各
移动机器人对工作环境地图信息的获取与更新是移动机器人在环境中正常工作的重要前提。距离网格地图作为描述环境信息的一种地图表示方式,是概率网格地图的重要补充,能够提供比
面向服务的架构(Service-Oriented Architecture,简称为SOA)是一个新兴的软件工程范例,用来开发动态演进的Web应用。服务的提供者和服务的使用者可以通过公共的服务注册机构