论文部分内容阅读
广义偏线性模型是将非参数估计与参数估计结合的半参数模型,能够解决离散因变量的建模问题。由于其兼具解释性与精确性的双重优势,被广泛应用于经济、医学等研究领域。变量选择是在数据大爆炸的背景下建模人员所面临的最重要的问题之一。其中,罚函数法是被统计学者研究最多的变量选择理论,它能够同时进行变量选择与参数估计,具有算法高效的主要特点。 Li(2008)与Wang等学者提出了广义偏线性模型变量选择的算法,但将非参数部分的估计与参数部分的变量选择独立进行。若存在冗余变量会影响非参数部分的估计精度,从而使变量选择的结果失去有效性。本文将通过理论研究与蒙特卡洛模拟,旨在探讨以下三个问题:①全模型的非参数部分估计是否有效?②能否将非参数部分估计与变量选择同时进行?③用于变量选择的罚函数并不唯一,如何选择? 本文将普通广义偏线性模型的估计算法与Fan(2001)提出的二次迭代算法相结合,基于Li(2008)提出的One-step Back-fitting Algorithm(OBA),提出新的改进算法—Iterative Back-fitting Algorithm(IBA),使非参数部分的估计以及参数部分的估计和变量选择得以同时进行,并将IBA算法推广到局部多顶式估计,提出IBA-LP。本文通过蒙特卡洛模拟,从样本量、自变量相关及个数等三方面讨论IBAs算法的改进效果,结果表明:①当自变量具有较高相关性时全模型的非参数部分估计将失去有效性,从而OBA算法也将失效;②IBA(S)算法在自变量较高相关的情况下,估计结果依然有效;③SCAD是兼具算法高效性与结果有效性的相对最优的罚函数,Lasso得到的结果劣于SCAD、Bridge、Elastic Net,Bridge与Elastic Net在超参数选择上具有计算复杂性。