论文部分内容阅读
离散型变量是随机变量中的一种重要的类型,在各个学科领域中存在大量的离散数据,因此离散数据中影响点和异常值的识别是一项重要的研究工作。影响分析作为研究数据集中影响点的一种技术,受到了广泛的重视。在以往文献中诊断影响点的方法主要可分为两种,一种是数据点删除法,另一种是局部影响方法。在局部影响方法中,Cook(1986)提出了基于似然距离的影响图的法曲率来度量扰动的影响,并用于识别数据中的影响点。由于该方法具有许多优点,获得了广泛的应用;Shi(1997)提出的广义影响函数及广义Cook统计量也为识别数据的联合影响提供了非常重要的研究工具。这两种局部影响的方法对线性回归模型中影响点的诊断已有了大量的文献。然而对离散数据局部影响分析的研究,目前相关文献较少。本文专门针对离散数据构建了一种局部影响分析方法,并把该方法用在了二维列联表的局部影响分析中,获得了一系列结果:同时通过实例分析验证了方法的有效性。本文的主要研究内容如下:
1、本文通过极小化power-divergence统计量为准则估计离散数据的模型参数,并建立以此进行局部影响分析的基本思想:Rao(1961,1962)介绍了二阶有效的思想,在这种情况下他证明了在极小化power-divergence估计中,λ=0时(MLE)的估计量是最优的。Berkson(1980)对Rao的准则提出质疑,Hodges and Lehmann在Berkson的基础上提出了估计量的deficiency,他们比较的是估计量的二阶近似均方误的差别。在这个准则下,MLE不一定是最优的。
2、基于power-divergence统计量构建出了Ⅰ距离函数及其影响图和保形法曲率,并证明了相应的性质。由于本文是用极小化power-divergence统计量估计离散数据的参数,构建的Ⅰ距离函数的一阶导数在ω。处的值为0,避免了用极大似然估计时一阶导数不为零时所带来的计算上的麻烦。Cook提出的法曲率可取任意值且在刻度的一个一致(uniform)转换下并不是不变的。因此没有客观的准则来评价该曲率的大小和与大的法曲率相对应的方向的相对大小。本文给出的保形法曲率有着良好的性质:对任意单位方向h,C<,I,h>满足不等式0≤C<,I,h>≤1;θ的再参数化的不变性;ω的保形再参数化的不变性。而且本文构造了一个客观标准来评价C<,I,h>的大小。
3、把Ⅰ距离函数及其保形法曲率用在了二维列联表的局部影响分析中,研究了二维列联表中在独立模型下,log模型下和logit模型下的局部影响分析,并用例子加以说明,得到了很好的结果,验证了该方法作为研究离散数据的局部影响分析方法的可行性。
本文首次构建了基于power-divergence统计量的Ⅰ距离函数及其影响图和保形法曲率,提出了专门诊断离散数据的影响点的局部影响方法,证明了相应的性质,并把该方法用到了二维列联表中,在三种模型下得到了很好的结果,用实例说明了该方法的可行性,充实了局部影响分析方法。