论文部分内容阅读
在经济学、金融保险学、社会学、教育心理学、生物医学、工程技术等研究领域中,涉及到许多变量,其中一些变量本身不是不可观测的,但由于一些外在的原因致使这些变量没有被观测到,这些没有被观测到的变量通常称为缺失数据;而另一些变量,虽然它们是客观存在的,但由于人们的认识水平或事物本身的抽象性、复杂性致使这些变量无法直接被观测,这些不能直接观测的变量通常称为潜变量。本论文将把缺失数据和潜变量数据统称为不完全数据。不完全数据在许多实际问题中是普遍存在的,如:居民收入调查研究中,由于被调查者的疏忽或粗心忘记了回答问卷中的部分问题而导致部分数据缺失;在毒品和艾滋病问卷调查中由于被调查者担心自己的隐私被暴露而不愿意回答问卷中的部分问题而导致部分数据缺失;在社会问题调查中,诸如病情、扭伤程度、健康状况、工作态度、智力情况、满意程度等都是不可直接观测的潜变量;在药物药效研究中,由于药物本身的副作用致使病人放弃其药物的继续使用或病人死亡或到别的医院接受新的药物治疗等。因此,研究这些不完全数据不仅是社会发展对统计学提出的新任务、新要求,更是统计学理论发展中急需解决的新课题。
对于不完全数据的分析和处理,已经有相当长的历史了,并且人们已经提出了很多不同的分析和处理方法。近年来,有关缺失数据的研究是统计学及其相关学科领域研究的重点和热点问题之一,国内外有许多学者都对这一问题进行了卓有成效的研究,并取得了许多有价值的研究成果,但他们的研究大都假设随机误差项服从正态分布或缺失数据机制为可忽略的。然而,在一些实际问题中,人们常常遇见数据的缺失与该变量本身存在一定的联系即缺失数据机制为不可忽略的情形以及响应变量并非服从正态分布而是更复杂的分布,诸如:Simplex分布、指数族分布等。目前,对带有不可忽略缺失数据机制的非正态误差分布的复杂模型的统计问题,国内外在这方面的研究甚少,本文将较深入系统地研究带有不可忽略缺失数据的指数族非线性随机效应模型参数的极大似然估计、Bayes局部影响分析、模型的拟合优度检验等统计推断问题。本文的主要研究内容如下:
1、对带有不可忽略缺失数据的指数族非线性随机效应模型,采用MH抽样方法研究了模型参数的基于Laplace近似和基于Q函数Q(θ|θ(t-1))以及随机逼近方法的极大似然估计,讨论了基于EM算法的模型选择准则,为说明上述方法的应用进行了模拟研究与实例分析。
2、对带有不可忽略缺失数据的指数族非线性随机效应模型,讨论了模型参数的后验分布,基于Gibbs抽样和Metropolis-Hastings(MH)算法给出了模型参数的Bayes估计,并进行了模拟研究与实例分析。
3、利用后验预测p值以及偏后验预测p值对该模型进行了拟合优度检验,基于Bayes因子采用路径抽样的方法讨论了模型的选择问题。
4、对于带有不可忽略缺失数据的指数族非线性随机效应模型提出了一套广义的Bayes统计诊断方法用以评价微小扰动的局部影响。此外,本论文还介绍了与Bayes局部影响方法相关的许多概念,包括扰动模式、目标函数、局部影响诊断统计量等,并进行了模拟研究与实例分析。
综上所述,本论文基于前人的研究工作,全面系统地讨论了带有不可忽略缺失数据的指数族非线性随机效应模型的统计推断问题,上述研究工作不仅推广和发展了非线性模型与缺失数据模型的理论和方法,同时还为实际问题中的不完全数据问题分析提供了理论和方法支持,具有一定的应用前景。