论文部分内容阅读
在生物信息、医学、金融分析等诸多应用领域,经常出现高维数据,删失数据等复杂数据。数据维数不断增大给数据分析带来了重大挑战。一方面:维数的增大会导致“维数灾难”问题;另一方面:经典大样本统计推断理论一般都是建立在维数固定且相对较小,而样本量趋于无穷的假设下,在数据维数p随着样本容量n一起趋向无穷时,特别是在“超高维”(p>n)数据情形下,经典统计理论的结论可能不再有效。因此,如何对这些高维数据进行统计推断是统计学研究的一个重要课题。 经验似然方法是由Owen(1988)提出的一种非参数统计推断方法,与传统的正态逼近方法相比较,具有许多优势。例如:由经验似然方法所构造的参数的经验似然置信域不需要估计渐近方差,其形状完全由数据决定,而且还具有域保持性和变换不变性。本文在样本维数p随容量n一起趋向无穷情形下应用经验似然方法研究复杂数据的统计推断。另外,变量选择也是高维数据分析的一个重要问题。本文也研究了样本维数p随容量n一起趋向无穷情形下基于惩罚经验似然方法的半参数模型和可加危险率模型的变量选择和参数估计问题。 本文主要包括了以下几个方面的内容。 第二章研究了高维情形下半参数模型的统计推断问题。首先,利用经验似然方法构造了参数的估计量及其置信域。证明了在一定条件下,当样本维数p和容量n都趋向无穷情形时,经验似然比渐近分布为正态分布,并证明了通过经验似然方法得到的参数估计量具有一致性;其次,将惩罚经验似然方法推广到高维稀疏情形下半参数模型的变量选择和参数估计问题。证明了在一定条件下,当样本维数p发散,即样本维数p和容量n一起趋向无穷情形时,惩罚经验似然比统计量具有渐近x2q分布,同时证明了惩罚经验似然方法具有Oracle性质。 第三章研究了高维删失情形下可加危险率模型的统计推断问题。首先,利用经验似然方法构造了参数的估计量及参数置信域或参数分量的置信区间(置信域)。证明了在一定条件下,当样本维数p发散时,通过经验似然方法得到的参数估计量具有一致性,并证明了关于参数和参数分量的经验似然比渐近分布分别为正态分布和x2q分布;其次,将惩罚经验似然方法推广到高维稀疏删失情形下可加危险率模型的变量选择和参数估计问题。获得了在一定条件下,当样本维数p和容量n一起趋向无穷情形时,惩罚经验似然统计量的渐近分布-x2q分布,并证明了惩罚经验似然方法具有Oracle性质。 第四章研究了高维情形下异方差部分线性单指标模型的统计推断问题。利用经验似然方法构造了参数的估计量及参数置信域或参数分量的置信区间(置信域)。证明了在一定条件下,当样本维数p发散时,关于参数和参数分量的经验似然比渐近分布分别为正态分布和x2q分布。 第五章研究了高维情形下两样本的统计推断问题。利用经验似然方法构造了两样本均值之差和两线性模型系数之差的估计量及其置信域。证明了在一定条件下,当样本维数p发散时,经验似然比渐近分布为正态分布,并证明了通过经验似然方法得到的参数估计量具有一致性。 我们通过模拟和实例分析验证了本文所提出的基于经验似然方法的高维数据分析理论结果及其优良性。