论文部分内容阅读
数据是驱动统计理论发展的重要动力,一种理论或者模型以及思想的出现和发展都是与实际中分析需要分不开的.在收集数据的过程中是有一种很自然的特性那就是分类,科学要完成的三件事情是分类、排序和评价,分类是首先要做的,同时分类也是在进行各种活动的时候的一种不由自主的原则.在很多的情况下,研究某个对象的时候,由于各种条件以及方法的原因,就更加容易碰到用于分类的因素,当很多个分类的因素交织在一起的时候,那么数据就会产生一种分级的结构,可以说在实际中所碰到的数据绝大多数都会有这样一种分级、分层或者叫做多水平结构.在某个层次的内部,观测之间的相似性会比层次之间来得更强烈.这就是数据中的异质性,数据产生异质性的原因有很多,但是由于分层因素的存在,使得观测个体之间产生明显的差异是一种非常显性的原因,也是无法回避的.既然形式如此,那么就会包含相应的信息,就要求在建立模型进行分析的时候将这样一种信息表现出来. 收集到一些经验数据之后,分析的目的就是建立一个模型.换句话说就是,如何来解释一组响应变量或者叫做输出变量和一组解释变量或叫做协变量之间是如何关联的.传统的模型是不能直接用来反映这种分类的数据结构的,要进行分析只能在模型中加入相应得虚拟变量,但是当分类结构比较复杂的时候,虚拟变量的方式是行不通的,而且单纯将分类作为一个自变量进入模型,也是对其信息的一种损失,因此必须发展相应的技术来对于这种数据进行分析.在传统模型中能够用于多水平数据分析的只有方差分析,但是方差分析只注重与分类的本身,对于分类背后的深层因素不予考虑,这仍然无法达到对于分层数据进行完全分析的目的. 由于数据的要求,多水平模型被人们提了出来.多水平模型其实并不是一种具体模型的形式,它是一种建立模型的思想,即对于分层数据进行建模的时候,要将不同层次水平上的变量全部考虑到模型当中,采用一种嵌套的形式使得不同层次上的信息得以充分的展示.模型中在不同的层次上的观测中建立分别的模型,然后在低层模型中设定随机系数,那么在高层的模型当中,就利用相应层次的观测对于这些随机系数进行建模,这样就形成了一个分层次的模型结构,多水平模型因此而得名. 本文从线性模型的多水平结构谈起,对于多水平模型的概念、形式以及相关问题进行了详细的讨论,并且通过实例进行了进一步的探讨.并且在线性模型的基础上对于多水平模型的概念进行了扩展,介绍了相关的模型和方法. 本文共分成五章,分别是,第一章引言第二章线性多水平模型第三章线性多水平模型的扩展第四章其他模型和非预测模型简介第五章进一步的思考和评论.其相应的内容为: 第一章 首先从分类数据结构的概念出发,介绍了关于异质性的问题,讨论了相关性数据的类型,进而引出了由多水平结构引起的相关性数据的概念.在正态性的假定下对相关性数据的相关结构进行了描述。然后从模型的一般形式出发,探讨了传统的的统计模型在分析多水平模型时产生的缺陷.最后通过方差分析,引出了多水平模型的概念,对其发展的历史进行了简短的回顾,并简单介绍了研究现状. 第二章 本章是本文的重点.主要讨论了关于最基本的线性多水平模型的问题,通过简单的无条件两水平模型,到有条件模型,然后引出了线性多水平模型的一般形式.接着对模型的参数估计以及诊断进行了讨论,包括固定参数的估计,随机参数的预测,以及他们的方差的计算和显著性检验,还介绍了建模时进行模型选择的办法,然后对建立多水平模型所采用的软件包进行了比较详细的讨论。 第三章 本章针对上一章对线性模型的介绍,并结合第一章中对模型基本形式的介绍,探讨了对线性多水平模型进行扩展的问题,从响应变量分布的非正态和模型形式的非线性两个方面进行了讨论.首先第一部分对响应变量进行扩展,讨论了关于广义线性多水平模型的问题.从一般的广义线性模型,结合多水平模型的思路,介绍了模型构成形式,然后对于其参数估计的方法进行了详细的讨论。然后在第二部分里,简单的介绍了模型形式非线性的问题. 第四章 本章中主要讨论的问题不在是线性模型基础上的简单扩展,而是首先从截面面的角度换到了时间的角度,首先介绍了多水平时间序列模型的形式,然后进一步引出了时间序列的非线性模型,条件异方差模型的多水平模型的形式.接着介绍了多水平模型与数据挖掘技术中比较常见的人工神经网络结合,即分级神经网络的模型形式.在第二个部分中以因子分析为例介绍了有关非预测模型中使用多水平模型的问题,首先讨论的探索性因子分析的多水平模型形式,然后简单介绍了多水平确定性因子分析也就是结构方程模型的估计过程. 第五章 本章对本文中没有能够涉及的几个重要话题以及本文的不足进行了探讨.首先谈到了目前多水平模型领域中比较前沿的两个问题生存数据和空间数据的相应模型.然后提到了本文中没有涉及的数据缺失问题,最后对文章的其他不足进行了简单的介绍.文章的最后对多水平模型的思想进行了简单的总结和展望.