论文部分内容阅读
在现实世界中,随着互联网和多媒体技术的发展,多标签数据大量出现,这些数据的每个实例样本往往同时属于多个类别,导致需要处理的信息急剧增加。如何高效的处理这些信息,需要结合多标签类别间的相关性与共现性特点,从多标签特征选择和多标签分类两方面考虑。特征选择是从输入特征集合中选择最具有代表性或区分度的一个特征子集,是一种有效的降维方式。其核心要求是特征集包含的特征与类标签高度相关。目前已有各种各样的特征选择方法用来解决高维度问题。ReliefF算法和F统计量算法都是经典的过滤式特征选择算法。其特征选择过程是利用数据的内在特性对选取的特征子集进行评价,独立于后续学习算法,即是将特征选择作为一个预处理过程,独立于分类器。由于多标签数据不同类别间具有相关性与共现性的特点,这使得传统的单标签特征选择方法不能直接应用到多标签特征选择问题中。现有的多标签特征选择算法少之又少,且大都没有解决根本性的问题,故多标签特征选择算法已成为当前的研究热点之一。针对传统的单标签特征选择算法不能解决多标签特征选择问题,首先在ReliefF算法基础上,结合多标签数据本身固有的属性,假设样本各类标签的贡献值是相等的,结合三种贡献值计算方法,改进特征权值更新公式,最终获得有效的分类特征,并实验验证了多标签ReliefF算法的有效性。同样地,按照ReliefF算法改进思路,我们也将F统计量算法推广到多标签形式,该算法假设样本各类标签对所有特征的贡献值是相等的,依据ReliefF算法中提出的三种贡献值计算方法,改进了F统计量计算公式,最终获得有效的特征子集。针对现有的多标签特征选择算法选择出的特征之间存在相关性,具有冗余信息,考虑通过将特征相关性融入稀疏表达模型,提出了基于特征相关性的多标签特征选择算法。该算法既可以进行特征选择,同时又能够剔除特征问的相关性。文中给出了该模型的可行有效解,并进行了严格的数学证明。实验表明,该方法明显优于许多现有的特征选择方法。在传统的有监督学习中,每个实例样本只拥有一个代表其归属性的类标签。然而对于多标签样本,一个类标签是不具备描述样本完整信息的能力,传统的分类算法不适用于多标签分类问题。基于此,结合多标签数据的特点,提出一种自适应线性回归多标签分类算法。该算法在经典线性回归理论基础上,提出多标签形式的线性回归理论,结合多种评判标准对回归结果设置阈值,自适应地预测出最终标签。根据同时考虑符合数据本身的固定阈值与反映分类器综合效果的自适应阈值,从而降低了数据分布与噪声对分类的影响。实验结果表明,该算法可以有效地解决多标签分类问题。