论文部分内容阅读
随着信息技术的发展,当今各种社会活动产生了海量的数据,同时数据的维度也呈现出爆发式的增长。海量的数据带来潜在价值的同时也带来了巨大的挑战。高维数据中的噪声、冗余以及不相关的特征降低学习模型的泛化能力和解释性,极大地增加了数据存储需求。甚至,目前的机器学习和数据挖掘算法在高维数据上不再适用。因此,对高维数据进行降维是数据分析中的一个非常重要的问题,也是一个基本问题。特征选择已经被证明是一种有效的降维技术之一,它是根据预先定义的准则,从原始特征集合中选择一个最佳的特征子集的过程。 近年来,由于稀疏性在理论上和实际应用中取得了很大的成果,稀疏学习已经被广泛应用于特征选择中,而且取得了巨大的成功。作为稀疏学习的一个基本组成部分,大量的稀疏正则化被提出并研究。由于凸的正则化容易求解,而且解是全局解,所以大量学者专注于研究凸的正则化。尽管凸的稀疏正则化被证明有很好的效果,但是任然存在一些情况,非凸正则化的效果要比凸正则化的效果好。同时,注意到,在许多领域中模型的变量是矩阵,比如多任务学习、多分类问题、神经网络等。然而,由于矩阵的形式相对复杂,研究矩阵稀疏度量的工作较少。为了使得特征选择更有效,本文针对矩阵提出两个非凸的稀疏度量,同时把它们做为联合稀疏正则化应用到特征选择中。针对联合稀疏正则化以及基于联合稀疏正则化的特征选择问题,本文主要做了以下几个方面的工作: 首先,本文针对矩阵提出了一个非凸的,但是是利普希茨(Lipschitz)连续的稀疏度量,它可以写成l2,1范数与Frobenius范数的差,把它记为l2,1-2。为了验证l2,1-2的有效性,它被做为联合稀疏正则化应用到有监督的特征选择中。为了使得l2,1-2具有更广的适用性,在特征选择模型中考虑了损失函数为一般形式。为了求解非凸模型,给出在凹凸程序(CCCP)框架下的迭代求解算法,并证明了CCCP算法的迭代点列是收敛的,且极限点为模型的稳定点。考虑到l2,1范数能有效地减少离群点和噪声的影响,在模型中使用l2,1范数做为损失函数,给出CCCP子问题的具体求解算法。凸的CCCP子问题可以很有效地被交替方向乘子法(ADMM)求解。在真实的数据集做了大量的实验证明了l2,1-2稀疏正则化在有监督特征选择的有效性。 其次,本文进一步把l2,1-2稀疏度量做为联合稀疏正则化应用到无监督特征选择中,提出基于l2,1-2稀疏正则化的无监督特征选择算法。据我们所知,这是首次在无监督特征选择中使用非凸的稀疏正则化。通过非负谱聚类算法,我们学习到样本点的归一化的聚类指示性矩阵,它可以被称为伪标签。利用伪标签,可以把有监督模型扩展到无监督情况。模型中的正交约束和非负约束使得学习到的聚类指示矩阵更加准确,有助于准确地选择相关特征。为了求解新提出的无监督特征选择模型,结合ADMM和CCCP设计了一个迭代算法,数值实验显示求解算法能很快找到模型的极小值点。为了验证新提出方法的效果,在真实数据集上的实验结果表明了新提出的方法的有效性。 最后,本文为矩阵提出另外一个非凸的,但是是Lipschitz连续的稀疏度量,把它命名为MCP2,并且把它应用到有监督的特征选择中,提出基于MCP2联合稀疏正则化的特征选择模型。本文给出了关于稀疏性的定理,表明当正则化参数超过某一个值时,模型的最优解的非零行能被控制。为了处理MCP2的非凸性,在CCCP的框架下设计一个迭代的求解算法。为了测试新提出稀疏度量在特征选择中的有效性,我们在真实数据集上做了一系列的实验。实验结果表明新提出的模型是有效的。