论文部分内容阅读
生存分析是统计学的一个重要的研究领域,它广泛应用于生物医学、保险精算、金融经济及可靠性工程等领域.而这类数据大都属于删失数据,传统的统计学是研究完全数据的科学,它的研究方法对删失数据几乎都会失效,如何对这种不完全数据进行统计与分析是一个很有意义的课题.病例队列数据是众多删失数据类型中的一种、它尤其适用于研究对象数目庞大,感兴趣事件删失率较高或收集风险因子成本较为昂贵的场合.在实际问题中,对同一个研究对象,往往可以获得多个感兴趣事件,则可以采用多元病例队列设计方案。 本文主要研究多元病例队列设计下几种半参数模型的估计问题,半参数模型既含有有限维参数部分,又含有无限维的非参数部分.它具有普通的回归模型的易解释性,又能克服非参数模型的维数祸根问题,因此被广泛的应用到生物医学及计量经济学上. 在本文的第一章,我们首先介绍多元病例队列数据,然后介绍生存分析中常见的几种半参数统计模型,如Cox比例风险模型,加性风险模型,半参数线性转移模型,变系数加性风险模型,甚至更一般地,部分线性变系数加性风险模型。 在本文第二章,我们考虑了多元病例队列数据下的加性风险模型.Kang et al.(2013)对此模型进行过研究,但他们所采用的估计方程信息使用不够充分.受Kim,Cai,Lu(2013)启发,我们提出了一个新的权函数来建立估计方程,该权函数能够更充分的使用协变量信息.我们给出了所提估计的大样本性质,包括一致相合性和渐近正态性.有限样本的随机模拟表明我们所提的方法比Kang et al.(2013)更有效,最后,我们将所提的方法应用于巴瑟尔顿人口健康调查中心数据上. 在本文第三章,我们研究了多元病例队列数据的半参数线性转移模型。半参数线性转移模型是一类应用非常广泛的半参数回归模型,它在分析失效时间数据时非常有用,半参数线性转移模型不仅包括Cox比例风险模型、比例比率模型,还包括一类非比例风险模型,因而提供了更大的灵活性,受Lu和Tsiatis(2006)启发,我们利用病例队列数据的特点和逆概率加权的方式来构造复合估计方程,所得到的估计方程可以通过迭代算法来估计回归参数和未知的转移函数.我们给出了所提估计量的渐近分布和它们的理论证明.我们通过随机模拟的方式展示了所提估计量的有限样本性质,并用所提方法分析了一个实际例子。 在本文第四章,我们研究了多元病例队列数据的部分线性变系数加性风险模型.标准的加性风险模型是基于协变量与风险函数是线性关系的假设下进行的,但有时这种假设不一定成立,例如1949-1975年进行的关于捷克铀矿工人肺癌的研究,由于工业环境发生了很大的改变,而这些改变比如通风环境等会影响人体对氡气的吸入,因此,在五十年代的氡气含量对肺癌的影响和七十年代同样的氡气含量对肺癌的影响是不一样的,而普通的加性风险模型无法刻画这种随时间变化的动态效应(Cai etal.,2007).基于此,我们考虑了部分线性变系数加性风险模型,部分线性变系数加性风险模型既包含了可以刻画协变量动态效应的变系数回归部分,又有普通的加性风险模型中的线性部分,因此具有广泛的适用性,我们通过构建加权复合估计方程来对线性部分的回归参数和变系数部分的累积回归函数进行估计,这种方法巧妙的避开了非参方法的复杂性,然后,我们给出了所提估计量的大样本性质,最后,我们给出了随机模拟结果来展示所提方法在有限样本下的表现.