论文部分内容阅读
高维统计问题目前在科学研究和技术发现领域引起了高度重视并且已经广泛的应用到许多领域,比如说医学,金融分析和风险控制等等.其中变量选择在高维数据分析和科学发现中扮演着重要的角色.在本论文中,我们将致力于高维数据分析中变量选择和估计的问题研究. 首先,在本文中我们将简要地概述一下高维数据分析在统计学中的发展现状.其次,我们考虑了在高维数据下变系数模型的变量选择和估计问题,对于这个问题我们发展了一种非凸组群选择方法,对于系数函数使用样条基函数的近似展开并研究了它们的理论性质.同时对于这个模型我们运用了组群Lasso和组群MCP的惩罚方法进行变量选择和估计.在适当的条件下,我们分别证明了组群Lasso和组群MCP的理论性质.接下来,我们考虑了高维数据下半参变系数模型的变量选择和估计问题及其确定该系统是线性和非线性部分的区分,并在该模型下我们运用了投影追踪,剖面似然和惩罚函数MCP的方法用来识别协变量有常数,线性或非线性效应.在一些假设条件下,我们证明了这种常数、线性和非线性估计能正确识别真正的模型结构,其中常数或线性估计的收敛速度被建立,并证明了其渐近正态性. 在前面两章中,我们主要考虑的是在协变量和响应变量都是完全数据情形下高维数据降维技术的理论与方法.由于生存分析和生物统计中,由于数据经常是删失变量,从而对于高维数据降维技术的发展带来挑战,为了将来进一步研究高维协变量下生存分析模型的变量选择或变量筛选,我们在这一章中研究了一类非常灵活的剩余均值寿命模型下的半参变系数生存模型,此模型由于带有半参数结构,因此具有较好降维特性.而且此部分的研究成果能作为未来进一步研究生存分析模型降维技术奠定基础,半参数变系数剩余均值寿命模型,依赖一个主要风险暴露变量,其中有些效应有可能是暴露变量的函数,有些效应可能是常数.在右删失情形下,从理论上我们发展了三阶段估计程序来估计在半参变系数剩余均值寿命下参数部分和非参数部分.第一阶段,我们通过逆概率删失加权的方法来建立局部估计方程来估计参数部分和非参数部分,在第二阶段,代入非参数估计部分到估计方程,我们能得到全局参数估计方程来估计参数部分和建立参数估计的渐进正态性.在第三阶段,代入参数估计到局部估计方程,我们能得到更新局部非参数估计方程来估计非参数部分和证明非参数估计的渐进正态性.