论文部分内容阅读
互联网及数据储存能力的快速发展,导致海量数据产生,如何精准高效地从高维数据中挖掘重要信息成为处理海量数据的关键,因此变量选择方法成为统计学家们重点探究的统计问题之一.其中The Seamless-L0(SELO)变量选择方法基于L0惩罚函数的表达形式,构造连续函数代替L0惩罚,使得SELO方法既保留了L0方法直接对非零元个数进行惩罚的优势,又克服了其具有不连续性的缺点,并且SELO方法比经典变量选择方法在模型选择和参数估计方面均有更加优良的表现.因此,本文将SELO分别应用于部分线性模型和复杂网络图模型中,构造部分线性模型下参数估计以及网络结构分析的新方法,研究其渐近性质以及在实际问题中的应用.具体创新内容和研究成果如下:
(1)在线性模型和Cox模型中,SELO方法在模型选择和参数估计方面表现优良,且估计满足Oracle性质.考虑其在上述模型中的应用,本文将该方法结合部分线性模型,提出部分线性模型参数的SELO估计,并探讨其参数估计的相关渐近性质.证明得到,在一定条件下,该方法下的参数估计具有相合性、稀疏性和渐近正态性,即满足Oracle性质.
(2)在复杂网络图模型中,可通过引入变量选择方法为正则项,使网络结构的分析结果更加精准.基于SELO变量选择方法的优良性质,本文将其应用于复杂网络图模型中,以SELO为正则子,提出新型正则化模型.该模型能够同时进行模型选择和多元变量协方差估计,实现对复杂网络结构的恢复与分析.通过对其相关渐近性质的证明工作,得到该模型下的协方差估计具有渐近正态性.将该模型和Graphical Lasso方法进行数值模拟比较,结果表明,基于SELO方法的正则化模型在网络结构恢复能力上的表现优于Graphical Lasso方法,并且比Graphical Lasso方法更能有效解决高维数据问题.最后对E.coli细菌的基因表达数据进行实例分析,结果显示本文提出的正则化模型比Graphical Lasso能发现更多基因之间实际存在的调控关系,进一步说明了该模型在基因网络结构的实际应用中具有优良表现.
(1)在线性模型和Cox模型中,SELO方法在模型选择和参数估计方面表现优良,且估计满足Oracle性质.考虑其在上述模型中的应用,本文将该方法结合部分线性模型,提出部分线性模型参数的SELO估计,并探讨其参数估计的相关渐近性质.证明得到,在一定条件下,该方法下的参数估计具有相合性、稀疏性和渐近正态性,即满足Oracle性质.
(2)在复杂网络图模型中,可通过引入变量选择方法为正则项,使网络结构的分析结果更加精准.基于SELO变量选择方法的优良性质,本文将其应用于复杂网络图模型中,以SELO为正则子,提出新型正则化模型.该模型能够同时进行模型选择和多元变量协方差估计,实现对复杂网络结构的恢复与分析.通过对其相关渐近性质的证明工作,得到该模型下的协方差估计具有渐近正态性.将该模型和Graphical Lasso方法进行数值模拟比较,结果表明,基于SELO方法的正则化模型在网络结构恢复能力上的表现优于Graphical Lasso方法,并且比Graphical Lasso方法更能有效解决高维数据问题.最后对E.coli细菌的基因表达数据进行实例分析,结果显示本文提出的正则化模型比Graphical Lasso能发现更多基因之间实际存在的调控关系,进一步说明了该模型在基因网络结构的实际应用中具有优良表现.