论文部分内容阅读
本文研究三类混合回归模型的模型选择问题,分别是混合线性回归模型,混合广义线性模型和混合专家模型. 混合模型相较于单个参数模型更为灵活,能够很好地拟合来自由多个同质子总体所组成的异质总体的数据,被广泛使用于医学、生物学、市场营销、金融风险管理和机器学习等领域.混合回归模型作为经典混合模型的扩展,也被广泛地应用于刻画上述领域中来自异质总体的因变量与自变量之间的关系. 若同质子总体中自变量与因变量之间是简单的线性关系,则用混合线性回归模型描述总体数据是合适的;若子总体中自变量与因变量之间应该用广义线性模型来刻画,则混合广义线性模型是拟合总体数据的理想选择;当各成分的混合比例与自变量之间存在某种函数关系时,应该考虑使用混合专家模型. 在混合回归模型中,模型选择包括两方面内容:首先是确定混合成分的个数,其次是选择各成分中的回归变量.确定混合成分的个数是混合模型理论和实证研究所面临的首要问题.从理论上说,任何一个连续分布都可以被包含有限个成分的正态混合分布拟合,且通过调整成分的个数,拟合效果可以达到任意好.在实际应用中,成分个数过多可能导致对数据的过拟合、模型不易解释等问题,成分个数过少则可能会降低混合模型的灵活性甚至无法准确刻画出数据的内部结构.因此,研究混合模型的成分个数选择问题既有理论意义,也有现实意义.变量选择问题是线性模型和广义线性模型中基本问题,过去二十年里一直是统计学中最热门的研究领域之一.面对大数据时代对高维复杂数据的处理需求,混合回归模型中各回归成分的变量选择问题同样十分重要. 本文的研究将基于惩罚函数的现代变量选择方法应用于混合回归模型的成分和变量选择问题中.研究了混合线性回归模型,混合广义线性模型和混合专家模型的模型选择问题. 本文的第二章研究混合线性回归模型的成分和变量选择问题.基于SCAD惩罚函数,利用惩罚似然的思想,分别对混合比例和回归系数施加惩罚,从而达到成分和变量同时选择的目的.不仅给出了估计算法,还证明了估计的相合性和渐近正态性.通过两个数值模拟例子和两个实证分析,模型在有限样本下的估计效果也得到了充分地展示. 本文的第三章研究混合广义线性模型的成分和变量选择问题.基于SCAD惩罚函数,利用惩罚似然的思想,对混合比例和各广义线性成分的回归系数施加惩罚,以实现成分和变量同时选择的目的.成分和变量选择的相合性、估计的相合性和渐近正态性结论均在文中给出.数值模拟例子和实证分析也展示了模型在有限样本下的表现. 本文的第四章将变量选择方法应用到混合专家模型中.对于标准混合专家模型,通过对门限参数和专家参数同时施加惩罚,从而达到变量选择的目的.对于局部混合专家模型,通过对门限参数和专家参数同时施加惩罚,能够同时达到专家选择和变量选择的目的.文中给出了两种模型的求解算法,并通过模拟和实证分析展示了模型的估计效果. 本文的创新点体现在以下三个方面. 首先,本文提出了一种新的基于惩罚似然函数的混合回归模型的模型选择方法.通过对混合比例和回归系数分别施加惩罚,这种新的模型选择方法能够同时选择混合回归模型的成分数量和各成分中的回归变量.在混合线性回归模型和混合广义线性模型中,本文证明了新方法的估计结果具有相合性和渐近正态性. 其次,本文将新的基于惩罚似然函数的模型选择方法应用于混合线性回归模型、混合广义线性模型和混合专家模型,研究了不同模型下的估计算法和调节参数选取方法,通过大量数值模拟展示了新方法在成分选择、变量选择和参数估计方面的优异表现. 最后,本文将新的模型估计方法应用于实际经济金融研究中,用混合线性回归模型分析了美国棒球运动员的薪酬数据和中国上市公司净资产收益率数据,用混合广义线性模型分析了证券分析师评级数据,用混合专家模型对波士顿地区房价数据进行了分析.