论文部分内容阅读
随着技术革新的深入,大量知识和数据的获取变得越来越容易。由此带来的数据分析问题的复杂性对传统统计学构成了极大的挑战。高维数据,或称横向数据挖掘问题便是其中一类,它存在于科学研究和商业应用的许多领域,如疾病研究、计算生物学、金融工程和风险管理等等。其典型的数据特征是“low sample size and high-dimensional”,即自变量个数p远远大于样本量n,且在实际应用中,不仅要求精确预测,往往还要求自动的变量选择和特征压缩。传统的回归或判别分析等方法已无法胜任这项极具挑战的工作。
本文主要考虑生物统计学中的基因数据分析问题。现代医疗成像技术的进步,使得一次同时测绘大量基因组表达水平成为可能。常用的microarray基因数据是典型的高维度低样本量数据,一条记录表示一个细胞样本(病例)的mRNA基因表达水平,往往高达数千维,而由于测量成本等考虑,样本量一般只有数十条。一个基本的任务就是要利用这些基因数据构造一个良好的分类判别器,对病例诊断起指导作用,同时又能对成千上万的基因进行有效地筛选,为病理的深入研究节省大量时间和精力。转化为统计学问题,就是要在p》n时有效地判别,并能够快速有效地选出最显著的变量。传统的主成分或是偏最小二乘回归将输入空间进行某种旋转来压缩维度消除共线性。这些有偏估计虽然能获得更高的预测精度,但是在p特别大时,计算效率欠佳,而且无法实现变量的自动选择。
支持向量机(SVM)由Vapnik提出后,逐渐成为流行的机器学习方法。不同于神经网络,Vapnik的统计学习理论为SVM等学习方法建立了良好的数学基础,VC维和SRM理论能很好地保证SVM的泛化性能。由于采用了特殊的“hinge”损失函数,即使在高维度低样本量下,支持向量机也能很好实现判别。同时,SVM不像线性模型那样对样本分布有要求,而且由于天然地有一个二次罚,所以可避免过拟合,共线性等情形也可不受影响。虽然标准形式的支持向量机能够很好地实现高维数据分析,但却无法自动地进行变量选择,要使其能够很好地完成基因筛选任务,需要对标准的SVM作改进。
变量选择问题在统计学领域由来已久。线性模型下常常是拟合多个模型,然后利用如AIC、BIC或Cp等统计量来选择最经济的模型。对于基因数据,这种策略的计算代价往往十分昂贵。加罚/正则化方法为变量选择和系数收缩提供了一个整体的工作框架,正受到越来越多的关注。最佳子集选择、基于二次罚的岭回归和基于L1罚的LASSO等工作都可被纳入其工作范围。基于线性模型族,Fan(2001)系统讨论了变量选择问题的加罚方法,并在此基础上提出了数学性质更加优良的SCAD罚,实现了变量选择过程的光滑进行。在此基础上,加罚的思想很自然地被运用于SVM。L1-SVM和SCAD-SVM相继被提出和讨论。研究发现,和线性模型中一样,这些正则化形式的支持向量机能产生非常稀疏的解,从而使得变量选择自动进行。
不同于以前的这些模型,本文提出了基于二次和SCAD混合加罚的正则化支持向量分类机:MP-SVM。二次罚虽然能够很好地收缩系数避免共线性,但却无法自动地将系数罚为零;L1-SVM对小系数依然予以“惩罚”,从而能够实现变量选择,但其罚函过于刚性,模型估计可能变得不太稳定;SCAD罚利用二次样条实现了变量选择过程的光滑进行,却由于追求无偏性而放弃了对大系数的加罚,因而大系数上的共线性可能依然存在。而MP-SVM综合了二次罚和SCAD的优势,将小系数快速地罚为零从而实现变量选择,同时又在大系数上进行收缩,避免共线性,使得到的模型估计更加稳健。而且,借助LQA,MP-SVM能得到很好的求解。
结合相关文献,我们在第一章里阐述了问题的背景和意义。在第二章,我们对SVM进行了具体描述,包括其几何背景、等价的统计学形式以及求解时采用的一般策略等等。而各种加罚模型的讨论安排在第三章。第四章则给出了MP-SVM和求解方法,而第五章则展示了MP-SVM在基因数据上的实际表现。第六章回顾了全文的讨论,并给出了我们的结论。