线性模型组间和组内变量同时筛选方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：wodekechengsheji

【摘要】

：

效应稀疏性原则是大量因子筛选试验中广泛采用的准则之一。它认为，实际试验中尽管有大量的潜在因子需要考虑，然而对响应变量有显著性效应的因子很少。在应用线性模型拟合响应变

【作者】

：

张学斌

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2012年期

【关键词】

：

分组变量惩罚函数分组绝对收缩线性模型因子筛选技术

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

效应稀疏性原则是大量因子筛选试验中广泛采用的准则之一。它认为，实际试验中尽管有大量的潜在因子需要考虑，然而对响应变量有显著性效应的因子很少。在应用线性模型拟合响应变量和因子之间的关系时，大部分因子的回归系数应该为零。因此，如何通过变量筛选技术得到线性模型的效应稀疏结构，一直是统计学的核心研究课题。一类常用的因子筛选技术是将求解回归系数的估计问题转化为一个优化问题，即最小化残差平方和与某种惩罚函数的加权和(βλ=argminβ[RSS(β)+λP(β)])。　　特殊形式的惩罚函数P(β)会令部分回归系数的估计退化为0，从而达到变量筛选的目的。Tibshirani(1996)采用了L1惩罚函数，提出了LeastAbsoluteShrinkageandSelectionOperator(LASSO)方法。由于L1惩罚函数在零点处是奇异的，LASSO方法使得一部分回归系数的估计收缩到零。FanandLi(2001)进一步对LASSO方法进行修正，提出了SmoothlyClippedAbsoluteDeviation(SCAD)惩罚函数，并从理论上证明了由这类惩罚函数导出的估计具有大样本“Oracle”性质。“Oracle”性质是指，随着样本量的增大，回归系数的估计以趋近于1的概率得到真实的效应稀疏结构，且显著系数估计的分布趋近于真实的分布。这样的估计能准确地识别并估计出具有显著性效应的回归系数。　　实际应用中，我们还需要处理带有分组结构的因子筛选问题。一个常见而重要的例子是，一个多水平的因子效应比较在方差分析模型中往往会被转化为一“组”虚拟因子。针对带有分组结构的因子筛选问题，YuanandLin(2006)提出了Group-LASSO方法，通过对不同因子组分别施加L2惩罚函数来筛选显著的因子组。之后，Zhaoetal.(2006)提出了CompositeAbsolutePenalty(CAP)方法，对不同因子组分别施加Lγ厶惩罚函数筛选显著的因子组。Meieretal。(2008)将Group-LASSO方法推广到广义线性模型中，提出了新的算法。Bach(2008)证明了Group-LASSO方法的在n→+∞的时候以趋于1的概率正确识别组间稀疏结构。所有这些筛选方法得到的估计中，显著因子组内所有的因子都是显著的。然而，对一个显著的多水平因子而言，很有可能它只有部分水平之间有显著性的差异，而不是全部水平之间都有显著性的差异。因此，有必要找到一类新的惩罚函数，它能处理带分组结构的因子筛选问题，即在线性模型中只有少数因子组是显著的，而且在显著的因子组内，也只有少数因子是显著的。前者称为组间稀疏性，后者称为组内稀疏性。　　本论文提出了一类新的惩罚函数，称为分组绝对收缩[GroupAbsoluteShrink-age(GAS)]惩罚函数，来处理带分组结构的因子筛选问题。由GAS惩罚函数产生的估计也称为GAS估计。本论文从理论上证明了，在一定条件下，随着样本量逐渐增大，GAS估计能以趋于1的概率收敛到真值，并得到真实的组间稀疏结构。论文还对含有连续因子、分类因子或混合因子的固定效应模型和随机效应模型分别进行了大量模拟。结果显示，当显著组内显著因子占全部因子的比例r变化时，GAS估计能稳定地识别约92％-95％的显著因子组和显著因子，但LASSO估计和Group-LASSO估计识别显著因子组和显著因子的能力都有一定的波动。具体而言，当比例r低于0.35时，GAS估计识别的显著因子组和显著因子略少于LASSO估计，但远多于Group-LASSO估计。当比例r高于0.8时.GAS估计识别的显著因子组少于LASSO估计，多于Group-LASSO估计；GAS估计和Group-LASSO估计识别的显著因子相差无几，且远高于LASSO估计。当比例r在0.35与0.8之间时，GAS估计比LASSO估计和Group-LASSO估计能够识别出更多的显著因子组和显著因子。另一方面，GAS估计得到的冗余因子组(将不显著的因子组错误地判别为显著的)比Group-LASSO估计稍多，但少于LASSO估计；而GAS估计得到的冗余因子多于LASSO估计，但少于Group-LASSO估计。由于通常情况下显著组内显著因子占全部因子的比例r比较适中，因而GAS估计对于带有分组结构的因子筛选问题是一个更加合适的选择。

其他文献

在历史课堂中与学生共成长——从“缠足与洗脚”说起

德国的教育家雅斯贝尔斯说过这样的话:教育本质上意味着一棵树摇动另一棵树,一朵云推动另一朵云,一个灵魂唤醒另一个灵魂.经常我们在分析、解析这句话的时候,是站在一个教育

期刊

历史课堂学生的发展缠足一个灵魂教育本质雅斯贝尔斯教师专业展道路教育者教育家术业人行解析德国

4连通图的可去边与4连通图的构造

该文引进4连通图可去边的概念,并给出4连通图G中不存在可边的充分必要条件是G=C或C,同时给出了n阶4连通图的一个构造.

学位

连通图可去边收缩边2循环图

有限维空间中Polyhedric型约束优化问题的必要条件

本文主要研究有限维空间中约束集为Polyhedric的扰动问题.在文中首先描述了Polyhedric集法锥正则co-导数的表达形式，通过这个结果可以表示出Polyhedric型约束优化问题解映射的

学位

Polyhedric集正则co-导数倾斜稳定性有限维空间

扰动Korteweg-de Vries方程及其他三类非线性方程的解析研究

非线性现象在自然界中是普遍存在的。研究非线性作用机制，对于物理学，化学，生物学，工程学以及社会科学都有指导意义。然而，非线性行为的作用机制是很复杂的，为了便于研究，有时不得不

学位

计算机符号计算非线性叠加公式Backlund变换渐进分析双线性方法扰动Korteweg--de Vries方程非线性方程解析解

基于时间序列理论方法的流感病毒DNA序列特征分析

流感是一种反复出现的传染病,在全球引起了高发病率和高死亡率.流感病毒分为三类:甲型(A型),乙型(B型),丙型(C型).在这三种类型中甲型流感病毒是最致命的流感病毒,给人类带来

学位

流感病毒DNA序列CGR时间序列模型ARIMA模型ARFIMA模型预测

L-函数的特殊值公式

本文主要研究与L-函数的特殊值公式相关的问题.在文章的第一部分,我们研究有理数域Q上由方程y2=x3-n2x定义的椭圆曲线A,这里[n]∈Q×/Q×2,并且[n]表示n∈Q×所在的类.我们详

学位

Whittaker系数椭圆曲线L-函数数学公式特殊值

网络中路的构建问题

一维装箱问题是组合最优化中的经典问题，而最短路问题在网络流问题中占据着核心地位。在这两个问题的基础之上，我们研究了一个新的最优化问题：给定一个赋权连通网络N=(V,A；ω，c；s，t)

学位

最短路问题装箱问题近似算法网络流

具有非一致线性增长生成元的倒向随机微分方程的Lp(p>1)解

Pardoux-Peng[46]在生成元g满足一致Lipschitz连续条件下证明了倒向随机微分方程(简记为BSDE)平方可积适应解的存在惟一性,奠定了 BSDE相关理论研宄的基础.随着深入的研宄,很

学位

倒向随机微分方程无限时间终端非一致线性增长生成元Lp解

浅谈小学英语课堂的适度追问

小学英语课堂需要追问,但课堂不是一个个问题的堆砌,教师要适度地追问,指引学生的思维更加全面深刻,使学生掌握的知识更缜密,激活学生思维的深度、广度。但是,在一线教师的课

期刊

学生思维两大误区课堂需要一线教师小学英语散漫课堂教学公开课知识堆砌

不完全配对数据风险差等价性检验和置信区间构建

在医学统计和流行病学研究中，人们经常遇到新的治疗方法和标准治疗方法的等价性评价以及构造它们的危险度差的置信区间等问题，目前国内外利用配对实验设计对这类问题进行了大量

学位

医学试验配对实验设计区间假设置信区间缺失数据

线性模型组间和组内变量同时筛选方法研究

其他学术论文