论文部分内容阅读
效应稀疏性原则是大量因子筛选试验中广泛采用的准则之一。它认为,实际试验中尽管有大量的潜在因子需要考虑,然而对响应变量有显著性效应的因子很少。在应用线性模型拟合响应变量和因子之间的关系时,大部分因子的回归系数应该为零。因此,如何通过变量筛选技术得到线性模型的效应稀疏结构,一直是统计学的核心研究课题。一类常用的因子筛选技术是将求解回归系数的估计问题转化为一个优化问题,即最小化残差平方和与某种惩罚函数的加权和(βλ=argminβ[RSS(β)+λP(β)])。 特殊形式的惩罚函数P(β)会令部分回归系数的估计退化为0,从而达到变量筛选的目的。Tibshirani(1996)采用了L1惩罚函数,提出了LeastAbsoluteShrinkageandSelectionOperator(LASSO)方法。由于L1惩罚函数在零点处是奇异的,LASSO方法使得一部分回归系数的估计收缩到零。FanandLi(2001)进一步对LASSO方法进行修正,提出了SmoothlyClippedAbsoluteDeviation(SCAD)惩罚函数,并从理论上证明了由这类惩罚函数导出的估计具有大样本“Oracle”性质。“Oracle”性质是指,随着样本量的增大,回归系数的估计以趋近于1的概率得到真实的效应稀疏结构,且显著系数估计的分布趋近于真实的分布。这样的估计能准确地识别并估计出具有显著性效应的回归系数。 实际应用中,我们还需要处理带有分组结构的因子筛选问题。一个常见而重要的例子是,一个多水平的因子效应比较在方差分析模型中往往会被转化为一“组”虚拟因子。针对带有分组结构的因子筛选问题,YuanandLin(2006)提出了Group-LASSO方法,通过对不同因子组分别施加L2惩罚函数来筛选显著的因子组。之后,Zhaoetal.(2006)提出了CompositeAbsolutePenalty(CAP)方法,对不同因子组分别施加Lγ厶惩罚函数筛选显著的因子组。Meieretal。(2008)将Group-LASSO方法推广到广义线性模型中,提出了新的算法。Bach(2008)证明了Group-LASSO方法的在n→+∞的时候以趋于1的概率正确识别组间稀疏结构。所有这些筛选方法得到的估计中,显著因子组内所有的因子都是显著的。然而,对一个显著的多水平因子而言,很有可能它只有部分水平之间有显著性的差异,而不是全部水平之间都有显著性的差异。因此,有必要找到一类新的惩罚函数,它能处理带分组结构的因子筛选问题,即在线性模型中只有少数因子组是显著的,而且在显著的因子组内,也只有少数因子是显著的。前者称为组间稀疏性,后者称为组内稀疏性。 本论文提出了一类新的惩罚函数,称为分组绝对收缩[GroupAbsoluteShrink-age(GAS)]惩罚函数,来处理带分组结构的因子筛选问题。由GAS惩罚函数产生的估计也称为GAS估计。本论文从理论上证明了,在一定条件下,随着样本量逐渐增大,GAS估计能以趋于1的概率收敛到真值,并得到真实的组间稀疏结构。论文还对含有连续因子、分类因子或混合因子的固定效应模型和随机效应模型分别进行了大量模拟。结果显示,当显著组内显著因子占全部因子的比例r变化时,GAS估计能稳定地识别约92%-95%的显著因子组和显著因子,但LASSO估计和Group-LASSO估计识别显著因子组和显著因子的能力都有一定的波动。具体而言,当比例r低于0.35时,GAS估计识别的显著因子组和显著因子略少于LASSO估计,但远多于Group-LASSO估计。当比例r高于0.8时.GAS估计识别的显著因子组少于LASSO估计,多于Group-LASSO估计;GAS估计和Group-LASSO估计识别的显著因子相差无几,且远高于LASSO估计。当比例r在0.35与0.8之间时,GAS估计比LASSO估计和Group-LASSO估计能够识别出更多的显著因子组和显著因子。另一方面,GAS估计得到的冗余因子组(将不显著的因子组错误地判别为显著的)比Group-LASSO估计稍多,但少于LASSO估计;而GAS估计得到的冗余因子多于LASSO估计,但少于Group-LASSO估计。由于通常情况下显著组内显著因子占全部因子的比例r比较适中,因而GAS估计对于带有分组结构的因子筛选问题是一个更加合适的选择。