论文部分内容阅读
随着人类社会各科学领域的高速发展和人们认知水平的不断提高0各种结构复杂的复杂数据也随之不断地涌现.对于这些复杂数据,如何根据数据的自身特点构造出有效的统计推断方法对其进行推断已成为统计学研究与应用中的重要研究课题之一.在生存分析中,转移模型作为一类比Cox比例风险模型、加速失效时间模型、比例比率模型等常用的模型应用范围更加广泛的半参数模型,对其研究具有很强的理论意义和实用价值.本文主要研究长度偏差抽样数据,失效类型缺失的竞争风险数据及多元失效时间删失数据等几类复杂数据下的半参数转移模型的统计推断及应用问题. 长度偏差数据是由生存分析中常用的流行队列抽样设计所产生的一种类型的复杂数据.这种类型数据特点是样本被观测到的概率与其生存时间成正比,过份代表总体,产生偏差抽样.经典的生存分析方法如果直接应用处理此类数据,将会导致估计结果的较大偏差或估计效率的损失.长度偏差数据下由于截断变量带有额外的信息,如何利用这些额外的信息给统计理论与方法带来挑战. 在生存分析中,加速失效时间模型已成为除Cox比例风险模型外的另一重要的模型,但对于加速失效时间模型,由于利用剖面似然方法所得的剖面似然函数的最大值不存在,从而如何利用数据中的额外信息仍是一个未解决的重要问题. 在本文的第二章,在长度偏差右删失数据下,研究了加速失效时间模型.在本章中,基于线性秩估计的思想,构造出一类类似于复合部分似然的估计方程方法,且注意到复合部分似然估计方程的不光滑性,所以为了计算上的简便,利用核光滑估计思想对估计方程进行光滑化处理便于计算.这种方法构造简单,直观意义强,易于使用一般的统计软件进行计算.同时,还给出了所得估计的渐近性质及一估计渐近方差的重抽样方法.最后,通过数值模拟和对来自加拿大健康与老龄化研究中心(CSHA)的一老年痴呆症数据的分析,说明了所提方法的可行性和实用性. 在本文的第三章,在长度偏差右删失数据下,研究了线性转移模型.在本章中,基于长度偏差数据的结构,构造出一个零均值随机过程,从而方便地构造出线性转移模型未知参数的估计方程组.不同于逆概率加权方法需要假设估计删失变量的生存分布,这种方法构造简单,模型能处理删失变量与协变量有关的情形.同时,推导了所提估计的渐近性质,即估计相合性和渐近正态性,还构造了评价模型拟合程度的拟合优度检验,以及在给定协变量的条件下,条件生存函数的逐点置信区间和置信带.最后,还利用数值模拟和对来自加拿大健康与老龄化研究中心(CSHA)的一老年痴呆症数据的分析,验证了所提方法的可行性和估计效率. 在本文的第四章研究了竞争风险下缺失原因丢失下加速失效时间竞争风险模型.此类模型在医学、流行病学等实际数据的研究中具有重要的应用背景.当个体失效类型不止一种时,就产生一种竞争风险数据,并且由于保存方式、度量工具和人为因素等原因,这种类型数据中的失效类型还常常是缺失的.在失效类型缺失下,由于存在缺失数据,通常的统计方法不能直接应用于研究加速失效时间竞争风险模型.本章在失效类型的缺失机制是随机缺失(MAR)的条件下,基于逆概率加权估计,提出了一类近似于线性秩估计的方法,并且为了克服线性秩估计方程的不光滑性,进一步利用核光滑估计思想对估计方程的不光滑性进行改选.同时,发展出插补估计方法及扩大逆概率加权估计方法,并比较了这些方法的优缺点,同时获得了这三种方法所得估计的大样本性质.此外,还利用数值模拟说明了我们所提方法的有限样本性质. 在本文的第五章,研究了多元删失数据下部分线性转移模型.多元失效时间删失数据也是一种常见的复杂数据类型,其广泛地存在于生物医学、社会经济学等科学领域的研究中.多元失效时间删失数据的复杂性在于同一簇中的个体之间的观察是相关的,但又无法通过合理的假设来描述此类数据的相关性.在相关性无任何前提假设下,对半参数变系数转移模型的统计推断带有挑战.本章在多元失效时间删失数据下,常用方法是引入边际模型方法处理部分线性转移模型进行统计推断,但此方法忽略了同一簇中的个体之间的观察相关性.文章利用局部线性估计方法构造模型参数的估计方程,同时考虑多元删失数据的同一个簇中个体之间的相关性,提高了估计效率.同时利用构造的估计方程到了估计的渐近性质及一评价模型拟合程度的拟合优度检验方法.此外,利用数值模拟研究了所提的加权估计方法的有限样本性质,且还将所提的方法对巴瑟尔顿人口健康调查中心的一实际数据进行了分析. 在本文的第六章,在多元失效时间删失数据下,对半参数变系数转移模型进行了研究,提出了一能分别对参数和非参数函数进行估计的全局与局部估计方程方法,且得到了估计的渐近性质,同时提出了估计渐近方差的删除组刀切法.此外,为了计算上的便利,还提出了一步估计的方法对变系数函数进行估计.并证明这些方法是可行的. 而至于本文的第一章,则是介绍本文所研究的问题的背景和研究现状及本文的主要内容.