多标签学习中特征选择和分类问题的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户：liongliong572

【摘要】

：

在现实世界中,随着互联网和多媒体技术的发展,多标签数据大量出现,这些数据的每个实例样本往往同时属于多个类别,导致需要处理的信息急剧增加。如何高效的处理这些信息,需要

【作者】

：

黄莉莉

【机构】

：

安徽大学

【出处】

：

安徽大学

【发表日期】

：

2013年期

【关键词】

：

多标签特征选择分类 ReIiefF F统计量线性回归

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在现实世界中,随着互联网和多媒体技术的发展,多标签数据大量出现,这些数据的每个实例样本往往同时属于多个类别,导致需要处理的信息急剧增加。如何高效的处理这些信息,需要结合多标签类别间的相关性与共现性特点,从多标签特征选择和多标签分类两方面考虑。特征选择是从输入特征集合中选择最具有代表性或区分度的一个特征子集,是一种有效的降维方式。其核心要求是特征集包含的特征与类标签高度相关。目前已有各种各样的特征选择方法用来解决高维度问题。ReliefF算法和F统计量算法都是经典的过滤式特征选择算法。其特征选择过程是利用数据的内在特性对选取的特征子集进行评价,独立于后续学习算法,即是将特征选择作为一个预处理过程,独立于分类器。由于多标签数据不同类别间具有相关性与共现性的特点,这使得传统的单标签特征选择方法不能直接应用到多标签特征选择问题中。现有的多标签特征选择算法少之又少,且大都没有解决根本性的问题,故多标签特征选择算法已成为当前的研究热点之一。针对传统的单标签特征选择算法不能解决多标签特征选择问题,首先在ReliefF算法基础上,结合多标签数据本身固有的属性,假设样本各类标签的贡献值是相等的,结合三种贡献值计算方法,改进特征权值更新公式,最终获得有效的分类特征,并实验验证了多标签ReliefF算法的有效性。同样地,按照ReliefF算法改进思路,我们也将F统计量算法推广到多标签形式,该算法假设样本各类标签对所有特征的贡献值是相等的,依据ReliefF算法中提出的三种贡献值计算方法,改进了F统计量计算公式,最终获得有效的特征子集。针对现有的多标签特征选择算法选择出的特征之间存在相关性,具有冗余信息,考虑通过将特征相关性融入稀疏表达模型,提出了基于特征相关性的多标签特征选择算法。该算法既可以进行特征选择,同时又能够剔除特征问的相关性。文中给出了该模型的可行有效解,并进行了严格的数学证明。实验表明,该方法明显优于许多现有的特征选择方法。在传统的有监督学习中,每个实例样本只拥有一个代表其归属性的类标签。然而对于多标签样本,一个类标签是不具备描述样本完整信息的能力,传统的分类算法不适用于多标签分类问题。基于此,结合多标签数据的特点,提出一种自适应线性回归多标签分类算法。该算法在经典线性回归理论基础上,提出多标签形式的线性回归理论,结合多种评判标准对回归结果设置阈值,自适应地预测出最终标签。根据同时考虑符合数据本身的固定阈值与反映分类器综合效果的自适应阈值,从而降低了数据分布与噪声对分类的影响。实验结果表明,该算法可以有效地解决多标签分类问题。

其他文献

基于网络流行为的异常流量检测技术的研究

软件新技术的飞速发展和网速的不断提高对流量数据检测提出更大的挑战，如何在日益复杂的网络环境下进行流量数据检测已经成为目前一个重要研究课题。本文在现有研究成果的基础

学位

P2P流量BloomFilter算法网络流行为异常流量检测技术

城—市电子商务模式分析与系统实现

电子商务在企业的发展、人们的生活中产生了重要影响。电子商务模式，是指企业在互联网的条件下开展电子商务，为了满足企业目标顾客的需求以及为实现盈利目标而采取的一系列商业

学位

城-市电子商务模式需求分析概念描述统一建模语言

网—树混合双层应用层组播模型及其负载均衡策略研究

近年来,在网络时代的技术背景下,互联网技术在企业和用户需求的合力推动下迅速蔓延。流媒体作为代替普通文字和图片的网络媒介,在互联网中得到了爆发式的推广和应用。在现有

学位

应用层组播负载均衡组播簇度约束

海量数据中基于关键字的Top-k查询技术研究

随着云视讯、共享空间等新型技术的应用，存储在网络上的信息呈现爆炸式增长。信息的海量积累和动态变化阻碍了人类对它的有效利用。为了解决从海量数据中准确、有效地查询最优

学位

海量数据Top-k查询技术关键字查询数据库查询处理引擎

基于Linux的可程控半导体特性测量仪器的设计

半导体器件广泛应用于电子设备、工业生产和科学研究等众多领域，在当今社会发挥着重要的作用。而作为半导体生产不可或缺的一个重要环节，半导体特性测试贯穿于从产品设计到生产

学位

嵌入式Linux系统USB程控Gadget子系统WDF驱动可程控半导体特性测量仪器

面向多特征集成的粒化建模方法及其应用研究

随着互联网技术的迅猛发展,特别是近年来云计算、物联网、社交网络等新兴服务的快速普及,人类社会产生的数据规模正以一种前所未有的速度增长.从大规模复杂数据中,以应用需求

学位

多粒度信息粒化特征集成粗糙数据分析多标记学习协同表达蛋白质结构预测

光OFDM传输系统性能的损伤分析及优化研究

随着通信技术的快速发展，人们对通信质量的要求也越来越高。如何在有限的带宽下实现信息的高速率、大容量、优质量传输引起了研究者们的极大关注。光正交频分复用(OFDM)技术作

学位

正交频分复用强度调制直接检测激光器相位噪声MZM直流偏置

智能家居集控网络路由算法研究

路由协议是短距离无线网络系统研究的重要部分，网络低能耗是ZigBee技术最基本的要求，研究高效率的路由协议能够有效的降低并均衡网络的能耗，延长网络的使用。因为ZigBee技术有着

学位

智能家居路由算法集控网络结构ZigBee技术无线传感器

基于流形学习的脸部表情识别方法研究

人脸表情是一种重要的非语言交流方式,在人与人之间的日常交流中,有55%的信息是通过面部表情传递的。随着科学技术的发展和对机器智能化要求的提升,使计算机能理解人的情感并

学位

表情识别流形学习特征降维特征融合有监督的拉普拉斯特征映射

基于元组匹配和锚特征的Deep Web数据库分类研究

DeepWeb数据集成系统是获取并利用万维网上的自由分布的DeepWeb数据库中数据信息的一种有效方式，但是由于DeepWeb数据库数量繁多且涉及不同领域，因此按领域对DeepWeb数据库分类

学位

Deep Web数据库模式抽取元组匹配锚特征

多标签学习中特征选择和分类问题的研究

其他学术论文