论文部分内容阅读
多元线性回归分析是统计学中最有用的技术之一.回归技术已经广泛运用于计量化学、计量经济学、金融工程、基因学、心理测量学等应用领域,用来对多个相关的响应变量和一组共同的预测变量的相关关系进行统计建模.对于响应变量已知而预测变量需要选择的情形,已经有大量的文献进行了研究.而实际应用中,用于数据分析的响应变量的个数并不是预知的,也需要变量选择.因此,响应变量的选择以及响应与预测变量的同时选择是有重要价值的科学问题.本博士学位论文致力于研究这个科学问题,主要研究内容由三个部分构成: 响应变量选择问题.以新的视角提出了响应最优子集选择(Response Best Subset Selection,RBS)模型.通过对没有选择的响应变量进行惩罚,提出了一种新的响应最优子集选择方法,可以对响应变量进行变量选择.提出的RBS估计量具有Oracle性质,即模型选择的一致性和有效响应变量的回归系数估计量的渐近正态性.提出的模型和估计方法可以扩展到响应变量存在群组效应的情形.另外,我们的模型还可用于超高维响应变量的特征筛选.我们的数值模拟表明,我们的响应最优子集选择模型是一种有前景的响应变量选择方法. 响应与预测变量的同时选择问题.传统的变量选择方法只考虑预测变量的选择问题,而响应最优子集选择模型只考虑响应变量的选择问题.结合响应最优子集选择模型和Group Adaptive Lasso的惩罚思想,创建了一个关于响应与预测变量的同时变量选择(Simultaneous Response and Predictor Selection,SRPS)模型.在RBS基准模型的基础上,提出了新的同时变量选择估计量及有效算法.进一步证明所提出的SRPS估计量具有Oracle性质,即模型选择的一致性和回归系数估计量的渐近正态性.我们的数值研究表明,在高维多元线性回归结构下,我们的SRPS模型是一种有效的同时变量选择方法. 群组自适应弹性网方法.考虑到高维线性回归模型的预测变量是集群的(Grouped),研究关于预测变量的群组选择和参数估计问题.研究了群组个数超过样本量情形下的群组自适应弹性网(Group Adaptive Elastic-net,GAEnet)方法,并导出了GAEnet估计量的Oracle不等式和模型选择的一致性.在群组个数固定的情形下,进一步证明了GAEnet估计量的Oracle性质.还对局部近似坐标下降算法作了适当的修正,用于估计量的数值计算.我们的数值模拟和实证分析表明,对于高维线性回归问题,尤其当群组的个数大大超过样本的个数时,群组自适应弹性网是一种值得选择的非常有竞争力的模型选择方法.