论文部分内容阅读
借助于计算机技术的发展,统计学家们开始利用各种统计方法为实际数据建立模型,并以此解释数据背后变量间的关系,诠释经济现象、判断并预测事物未来发展的方向.人们一方面根据数据本身的含义和结构特点确定适当的模型,一方面探索估计方法以获得良好的估计性质.在对诸如随机变量的累积分布函数、生存分析中的累积危险率函数、计数过程的均值函数、剂量反应模型中的回归函数等具有单调性的函数进行估计时,保持其原有的单调性就显得尤为重要.然而采用传统的估计方法(极大似然估计、最小二乘估计、贝叶斯估计、样条估计、核估计等)对它们进行估计时都无法获得单调性的保证.如何得到具有单调性、光滑性并有较快收敛速度和渐进正态分布的良好估计,一直都是国内外学者研究的热点问题.考虑到应用广泛的部分线性模型、变系数模型以及非参数的混合回归模型在近些年都有较为成熟的估计方法,本文以这些模型中具有单调性的非参数函数为研究对象,在给出单调性估计方法的同时推导了估计的渐进分布.以下是各章内容的简要介绍. 本文的第一章简单地描述了参数回归模型与非参数回归模型的不足:参数回归模型的形式固定,对数据的先验信息依赖程度高,易出现模型选择错误的问题;非参数回归模型在拟合高维数据时会出现“维数密集”的现象.人们已提出了各种不同模型来解决上述不足的问题.本文主要研究其中的三类模型:部分线性模型、变系数模型和非参数一元混合回归模型.第一节介绍了非参数回归模型中未知函数的两种常用估计方法:局部光滑法和样条方法.第二节介绍了局部光滑法中的重要调节参数——窗宽的选择原理并列举了插入式和交叉验证等选择方法.当前在对非参数函数估计时通常强调光滑性而忽略单调性,但是在某些实际问题中,特别在经济社会现象的解释上,对估计的单调性的保证尤为重要.第一章的最后还介绍了对未知非参数单调函数的几种估计方法. 本文的第二章讨论了部分线性模型.Engle et al.(1986)最早提出了部分线性模型.Y=XTβ+g(T)+ε针对模型的结构特点,人们提出了多种不同的估计方法.第二章在简要概括了部分线性模型的一般估计方法后,指出这些方法的不足——不能保证未知函数原有的单调性.并在非参数函数具有单调性的假设下,提出了单调化的估计方法.该估计方法分为以下几个步骤:首先,在参数的最小二乘估计的基础上求出非参数函数的Nadaraya-Watson估计;其次,利用核密度估计原理构造非参数函数的反函数的单调化估计;最后,通过求反函数得到非参数函数的单调化估计.整个估计过程中使用了两个核函数,对应两个不同的窗宽.根据前后两个窗宽比值的极限可能出现的两种不同取值(非负常数或正无穷),推导了相应条件下估计的渐进正态分布.结果显示两种情形下的渐进偏差相同但渐进方差不同.第二章的模拟研究和实例分析(分析了波士顿住房价格数据集)的结果显示该估计方法是比较理想的. 本文的第三章主要研究了变系数模型.变系数模型(又称函数系数模型)由Hastie and Tibshirani(1993)提出.模型的结构可表示为:Y=a1(U)X1+…+ap(U)Xp+(ε)其中Y为回归变量,X和U分别为p维、q维的协变量,aj(·),j=1,…,p为未知可测函数,(ε)为期望为零的随机误差.为了避免“维数密集”,人们通常取q=1且假设常数项函数和系数函数为关于相同自变量的一元函数.该模型能够反映协变量之间的交互作用对回归变量的影响.本章介绍了模型的几种常用估计方法,包括Nadaraya-Watson估计和局部线性估计等.因为部分线性模型是变系数模型的一个特例,所以将适用于部分线性模型的单调化估计方法推广至变系数模型.需要特别说明的是,在对某个协变量的系数函数进行了单调性假设后,首先得到的是该函数的局部线性估计而非Nadaraya-Watson估计.为了推导出单调化估计的大样本性质,第三章中还分析了所需要满足的正则条件.数值模拟和实例分析的结果都显示单调化估计是比较理想的. 本文的第四章讨论了非参数一元混合回归模型.这部分将单调化估计的想法应用于更为复杂的非参数混合回归模型.考虑到“维数密集”的问题,假设Y|X=x~π1(x)N(m1(x),σ21(x))+…+πC(x)N(mC(x),σ2C(x)),x∈R,其中m1(x),…,mC(x)为一元严格单调的回归函数,混合模型的成分个数C已知.在回归函数的局部似然估计的基础上完成了回归函数的单调化估计并采用交叉确认准则的方法选择了局部估计时的最优窗宽.本章在随机误差服从高斯分布的假设下,给出了单调化估计的大样本性质以及相关的正则条件.数值模拟的结果显示样本量越大,估计的精确度越高.实例分析部分对乙醇数据集建立了非参数混合回归模型.Hurvich et al.(1998)曾对该数据集建立过混合线性回归模型,因此回归函数具有单调性的假设是合理的.所有样本点几乎都落入了单调化估计的逐点置信区间内(置信水平为95%),表明估计的效果是比较理想的. 本文的第五章简要地概括了前面几章的研究内容,并指出了单调化估计方法的进一步研究方向:1.在进行实际数据分析建模时,如何识别非参数函数的单调性并做出检验?2.当模型中的非参数函数为多元函数时,如何在避免使用多元核函数的同时快速地进行单调化估计?为了避免“维数密集”,可以研究的模型有:部分线性可加模型(非参数部分由具有不同自变量的函数组成)、函数系数部分线性模型(常数项和系数函数具有不同自变量的变系数模型),各成分为可加模型的混合回归模型等.3.当样本具有相依性而非独立时,本文提出的单调化估计思想需要做怎样的改进。