论文部分内容阅读
半参数回归模型由于包含了参数部分和非参数部分,与常规的参数模型和非参数模型相比具有更强的适应性、解释性和建模能力。同时,它可以拓展出许多其它有用的模型,部分线性模型和部分线性可加模型就是其拓展的两个重要模型,它们在诸如生物学、计量经济学、气象学、金融工程学及社会科学等领域有着广泛的应用,已成为处理现代统计学问题的一种有力工具。 当前,关于部分线性模型的估计和变量选择多是基于解释变量个数固定或随着样本容量增加而无穷增加,研究模型中回归系数的变量选择、估计以及非参函数的收敛速度。然而,这种情形明显不能满足当前出现的高维数据要求。同时,对高维部分线性可加模型的研究也主要集中在对高维稀疏线性部分的变量选择上,很少涉及统计推断问题。本文对部分线性模型以及部分线性可加模型展开若干研究,主要的工作和结论主要有: (1)在高维稀疏环境下,本文使用多项式样条方法和Lasso惩罚研究了高维部分线性模型回归系数估计的渐近性质。使用局部多项式样条逼近模型中的非参函数。在线性回归系数稀性疏假设以及适当条件下,推导出预测风险和估计误差的oracle不等式,研究了线性回归系数估计的符号相合性质,以及非参函数的收敛速度。这些适当条件包含拓展到部分线性模型的严格特征值假设和不可表达条件。理论结果在随后的数值模拟分析中得到了进一步验证。 (2)与以往的高维部分线性可加模型相比较,我们假设非参部分是由大量满足一定条件的非参函数相加而成,其个数p远远大于样本容量n,而线性部分的解释变量个数d相对于样本容量很小,比如仅仅有1或2个解释变量。在这个模型里,我们假设非参部分具有稀疏性,即:尽管可加的非参函数个数很多,但与响应变量相关的非参函数却很少。基于每一个非参函数都可由局部多项式样条函数逼近,原始模型中非参部分的稀疏性假设转变成了群稀疏性。在适当条件下,我们使用截面群选以及有效得分方法对感兴趣的回归系数进行统计推断。数值模拟分析结果也进一步验证了所提方法的有效性。 (3)针对高维部分线性可加加速失效时间模型线性部分回归系数统计推断的研究,可以看成是高维部分线性可加模型研究工作在生存分析中的一个应用。在这个模型里,线性部分是加速失效时间模型,我们感兴趣的工作是由右删失数据,使用截面群选和有效得分两种方法对线性回归系数进行统计推断。与部分线性可加模型的不同之处在于该模型对右删失数据以及标准差估计的技术处理。数值模拟分析也显示了所提两种方法的有效性。 本文研究了高维稀疏环境下的部分线性模型及部分线性可加模型,主要的创新之处在于:(一)在高维稀疏框架下,利用多项式样条方法和Lasso惩罚研究了高维部分线性模型线性回归系数变量选择及其估计的渐近性质,模型选择的相合性以及非参函数的收敛速度。这里的解释变量个数可以达到d=O(ec)(0<c<1);(二)高维部分线性可加模型与以往的模型不同之处在于:可加的非参函数个数p远远大于样本容量n且与响应变量相关的函数却很少,即非参部分具有稀疏性,而线性部分的解释变量个数d相对较小。对该模型,我们使用截面群选以及有效得分两种方法对线性部分回归系数进行了统计推断;(三)把高维部分线性可加模型中的线性部分拓展成加速失效时间模型,使用所提的截面群选和有效得分方法对线性回归系数进行统计推断。 本文的结论和方法丰富了部分线性模型以及部分线性可加模型的估计性质和统计推断方法,有助于生物统计、金融工程以及计量经济等领域中重要变量的选取,达到简化模型、提高预测精度的目的,进而有助于达到对感兴趣的回归系数统计推断的目的。