论文部分内容阅读
复杂疾病和性状是威胁人类健康的重要因素之一。遗传关联分析是研究复杂疾病和性状的一个有效的工具,它可以帮助人们了解复杂疾病和性状潜在的生物学机制。常见的复杂疾病或性状一般可以分为两类:离散的和连续的(又称定量的)。离散的性状主要包括二值型性状和有序性状。 本研究针对连续性状和有序性状的关联分析,提出高功效且稳健的检验方法,主要的研究成果有:⑴对于定量性状的关联分析,我们给出了非参数风险和非参数比值的定义来刻画定量性状与单核苷酸多态性(简记为SNP)之间的非参数关联强度,得到了它们的相合估计且构造了相应的置信区间。基于非参数风险,我们还定义了非参数遗传模型。在特定的遗传模型下,构造了非参数趋势性检验,并得到了其渐近正态性。此外,当遗传模型未知时,我们提出了一个稳健的MAX3检验统计量并给出了它的渐近分布;⑵针对不服从正态分布的定量性状的关联分析,我们提出了一个两状态检验程序来解决由于遗传模型未知带来的功效损失的问题。首先,在第一个状态下,我们构造了一个统计量用来确定候选SNP的遗传模型。然后,基于第一个状态中选择的遗传模型,推荐使用相对应的非参数趋势性检验来进行关联分析。为了计算在给定名义显著性水平下两状态检验对应的实际显著性水平,我们推导了两状态中用到的模型选择统计量和非参数趋势性检验统计量的联合分布;⑶考虑到直接采用针对前瞻性数据的比例优势模型来分析回顾性有序性状数据,会导致遗传效应的估计不相合,所以我们结合遗传学上的哈代-温伯格平衡定律和比例优势模型,推导了针对回顾性性状数据的似然函数,得到了遗传效应的相合估计并构造了得分检验统计量,推导了其渐近分布;⑷关于多个相关性状的关联分析,我们提出一个分组检验的极小p值方法。分组的做法是:先对单个性状进行关联分析,然后将得到的所有检验统计量分组并用Fisher方法进行整合。极小p值统计量是指不同分组方式下得到的检验统计量对应的p值的最小值。模拟结果和实际数据分析结果表明此方法的检验功效会高于其它现有的方法。