论文部分内容阅读
复杂数据在实际研究中是十分常见的,本文系统地研究了复杂数据下变系数模型的估计、结构识别和变量选择问题,并给出了简单、快速、有效的计算方法。本文的主要工作和结论如下: (1)基于基函数逼近和最小二乘方法,为具有不规则观测时间点的纵向数据变系数模型提供了一种有效的估计方法。通过对残差过程本身建立自回归模型,所提方法能够在考虑纵向数据个体内部相关性的基础上,同时估计变系数模型的系数函数曲线和自回归过程的系数。由于实际数据的自回归阶数通常是未知的,本文给出一种变量选择方法来确定自回归阶数。理论结果表明系数函数的估计具有相合性,自回归系数的估计和阶数的选择也同样具有相合性。数值模拟和实际数据分析验证了所提方法的有限样本表现。 (2)基于中心化B样条逼近和整组变量选择方法,为高维变系数模型提供了一种结构识别和变量选择方法。所提方法能够同时达到三个目的:一是选择出哪些协变量是与响应变量相关的,哪些变量是不重要的;二是识别变系数模型的结构,即对于那些重要变量,进一步判断哪些变量具有可变效应,哪些变量的效应是固定不变的;三是估计变系数模型的系数函数。所提方法的优势在于计算简单、高效,不需要额外的筛选步骤,得到的惩罚估计量不但具有变量选择的相合性,也具有估计相合性。数值模拟比较了组lasso、自适应组lasso、组SCAD和组MCP在不同协变量维数下的表现情况,结合实际数据分析部分,共同验证了所提方法的有限样本表现。 (3)基于惩罚估计方程方法,为带有协变量测量误差和响应变量缺失的高维数据提供了一种新的变量选择方法。针对具有两次重复观测的测量误差变量,结合线性条件均值假设,本文构造了一个无偏估计方程,可以同时处理协变量测量误差和响应变量缺失两种情况。进一步地,使用正则化方法对所提估计方程进行惩罚,得到的惩罚估计方程具有变量选择特性,并适用于高维情形。在一些常规条件下,所提方法具有变量选择相合性和oracle性质。大量的模拟研究和实际例子分析验证了所提方法的有限样本表现。 (4)基于惩罚估计方程和中心化B样条逼近的方法,本文在带有协变量测量误差的高维纵向数据下,为变系数模型提供了一种结构识别和变量选择方法。所提方法在考虑协变量测量误差的同时,具有识别出变系数模型中相关变量、区分具有可变效应与固定效应协变量的能力。理论结果表明,所得估计具有变量选择相合性和oracle性质。数值模拟验证了所提方法的有限样本表现。 (5)本文改进了坐标下降和整组下降算法,提出了适用于协变量测量误差的坐标下降和整组下降算法。所得算法具有稳定、简便、高效的特性,适用于lasso、自适应lasso和其他非凸惩罚函数(如SCAD和MCP)。 本文的创新之处体现在以下几个方面:一、本文使用中心化B样条方法,为高维变系数模型的结构识别和变量选择提供了一种统一的估计方法,与已有研究不同,所提方法无需进行事先的筛选等步骤,只需一步计算,所以更加直观简单。二、本文将已有变量选择方法推广到协变量具有测量误差和响应变量具有缺失的情况下,解决了高维测量误差和缺失数据的变量选择问题,并给出了稳定有效的算法,丰富了变量选择和测量误差的研究结果。三、本文将带有测量误差的变量选择方法推广到整组变量选择上,并将其应用到高维变系数模型的结构识别之中。 本文为具有不规则观测时间点的纵向数据变系数模型提供了有效的估计方法,解决了高维变系数模型的结构识别和变量选择问题,并在线性模型和变系数模型下,解决了带有协变量测量误差或响应变量缺失的高维变量选择问题。本文提供的方法具有极强的实用性,算法简单有效,结论清晰明了,将有助于生物学、医学、经济学等相关应用领域的问题研究。