论文部分内容阅读
全基因组关联分析(Genome-wide association study,GWAS)是在人类全基因组范围内寻找与复杂性状或疾病相关联的遗传变异方法,这里的遗传变异主要是指单核苷酸多态性(Single nucleotide polymorphisms,SNP),占所有已知多态性的90%以上。荟萃分析被广泛应用于GWAS中,它综合多个研究的分析结果,在实现大的有效样本量的同时,提高发现新关联的概率。固定效应模型和随机效应模型是荟萃分析中常用的两种方法。固定效应模型假定各研究间的效应是一样的。在固定效应模型中,对SNP-环境交互作用的研究有SNP与SNP-环境交互作用的联合检验方法和荟萃回归两种分析方法。然而实际研究中,常见复杂疾病或表型通常由多个不同的遗传机制产生时,会具有遗传异质性。GWASs发现的变异在具有不同人口历史的人群中也具有不同的效应大小,甚至不同的关联方向。最近开展了许多大型跨种族人群的荟萃分析,其中通常包含遗传异质性。因此在荟萃分析时需要使用随机效应模型以便考虑遗传效应中的异质性。传统的随机效应模型只检验SNP的固定效应,将异质性作为随机效应并将其视为固定效应方差的一部分。最近的研究建议应同时检验SNP的固定效应和随机效应,该方法已被证明比传统的随机效应方法具有更高的检验统计力。然而,该方法只能对SNP的遗传主效应进行统计检验,对于SNP-环境交互作用检验目前仍缺乏相应的模型和方法。另外,在GWAS研究的实践中,为了节约研究成本或者研究人员无意间会使用一些重叠数据,忽略这些重叠数据会导致假阳性结果。最近的研究提出在检验SNP的遗传主效应时考虑重叠数据问题的荟萃分析方法。同样,目前仍然没有相应的荟萃分析方法用来在存在重叠数据的情况下检验SNP-环境交互作用。本文研究了GWAS中SNP-环境交互作用检验中的异质性和重叠数据问题,主要工作包括以下内容:
首先,提出一项在异质性存在情况下检验SNP-环境交互作用的荟萃分析方法。将SNP与SNP-环境交互作用的异质性作为随机效应引入到荟萃回归分析模型中。提出一种新的SNP-环境交互作用检验方法,称其为随机效应荟萃回归分析方法,用来同时检验SNP-环境交互作用的固定效应和随机效应。基于该模型,还进一步提出一个新的统计检验用来同时检验SNP与SNP-环境交互作用的固定效应及其随机效应。对于提出的方法进行仿真实验,研究它们的原分布和检验统计力。结果表明,在异质性效应较大的情况下,新方法比传统的随机效应模型和常规的荟萃回归分析方法具有更高的统计检验力。这个方法是适用于不同场景的简单有效的方法。此外,当已知基因-环境交互作用存在时,它还可以被进一步推广用来对不同的交互作用方式进行后验估计。
其次,提出另外一种随机效应模型方法,用来在异质性存在情况下进行SNP与SNP-环境交互作用的联合检验,并同时给出SNP-环境交互作用检验方法。该方法基于似然比函数检验,不需要分层水平的统计量数据。仿真实验表明这个检验方法与随机效应荟萃回归分析方法具有相似的检验统计力。该方法可以用于当研究间没有分层水平的统计数据时交互作用的统计检验。由于这个方法需要预先设定一个SNP-环境交互作用的函数形式,如果需要检验一个新的交互作用假设,该方法需要从新以新的模型在各研究数据中进行全基因组分析。
接着,提出一个重叠数据荟萃回归方法用来解决在研究间存在重叠数据情况下SNP-环境交互作用的检验问题。基于Lin和Han的相关研究,引入研究的层间相关矩阵,将常规荟萃回归模型的方差和协方差矩阵进行推广。基于这一模型,给出SNP-环境交互作用以及SNP与SNP-环境交互作用联合效应的统计检验。通过仿真实验,检验该方法的原分布和在不同数据重叠率下的检验统计力。实验结果证明该方法是有效的,同时达到了与在荟萃分析之前预先去除重叠样本的方法即数据拆除法相媲美的检验统计力。另一方面,实验结果表明如果忽略重叠数据会导致原分布对应的点向上偏移。因此,该重叠数据荟萃回归方法有效地处理了数据重叠问题。
最后,在随机效应荟萃回归分析方法和重叠数据荟萃回归方法的基础上,提出一种同时考虑异质性和数据重叠问题的随机效应模型下的有重叠数据的荟萃回归分析方法。对检验SNP-环境交互作用和SNP与SNP-环境交互作用联合效应的似然比统计量进行仿真验证。使用检验统计力评估我们的方法与固定效应模型下的有重叠数据的荟萃分析方法相比的优越性。仿真结果证明该方法在数据重叠、异质性存在的情况下,比固定效应模型下的有重叠数据的荟萃分析方法具有更高的检验统计力。
首先,提出一项在异质性存在情况下检验SNP-环境交互作用的荟萃分析方法。将SNP与SNP-环境交互作用的异质性作为随机效应引入到荟萃回归分析模型中。提出一种新的SNP-环境交互作用检验方法,称其为随机效应荟萃回归分析方法,用来同时检验SNP-环境交互作用的固定效应和随机效应。基于该模型,还进一步提出一个新的统计检验用来同时检验SNP与SNP-环境交互作用的固定效应及其随机效应。对于提出的方法进行仿真实验,研究它们的原分布和检验统计力。结果表明,在异质性效应较大的情况下,新方法比传统的随机效应模型和常规的荟萃回归分析方法具有更高的统计检验力。这个方法是适用于不同场景的简单有效的方法。此外,当已知基因-环境交互作用存在时,它还可以被进一步推广用来对不同的交互作用方式进行后验估计。
其次,提出另外一种随机效应模型方法,用来在异质性存在情况下进行SNP与SNP-环境交互作用的联合检验,并同时给出SNP-环境交互作用检验方法。该方法基于似然比函数检验,不需要分层水平的统计量数据。仿真实验表明这个检验方法与随机效应荟萃回归分析方法具有相似的检验统计力。该方法可以用于当研究间没有分层水平的统计数据时交互作用的统计检验。由于这个方法需要预先设定一个SNP-环境交互作用的函数形式,如果需要检验一个新的交互作用假设,该方法需要从新以新的模型在各研究数据中进行全基因组分析。
接着,提出一个重叠数据荟萃回归方法用来解决在研究间存在重叠数据情况下SNP-环境交互作用的检验问题。基于Lin和Han的相关研究,引入研究的层间相关矩阵,将常规荟萃回归模型的方差和协方差矩阵进行推广。基于这一模型,给出SNP-环境交互作用以及SNP与SNP-环境交互作用联合效应的统计检验。通过仿真实验,检验该方法的原分布和在不同数据重叠率下的检验统计力。实验结果证明该方法是有效的,同时达到了与在荟萃分析之前预先去除重叠样本的方法即数据拆除法相媲美的检验统计力。另一方面,实验结果表明如果忽略重叠数据会导致原分布对应的点向上偏移。因此,该重叠数据荟萃回归方法有效地处理了数据重叠问题。
最后,在随机效应荟萃回归分析方法和重叠数据荟萃回归方法的基础上,提出一种同时考虑异质性和数据重叠问题的随机效应模型下的有重叠数据的荟萃回归分析方法。对检验SNP-环境交互作用和SNP与SNP-环境交互作用联合效应的似然比统计量进行仿真验证。使用检验统计力评估我们的方法与固定效应模型下的有重叠数据的荟萃分析方法相比的优越性。仿真结果证明该方法在数据重叠、异质性存在的情况下,比固定效应模型下的有重叠数据的荟萃分析方法具有更高的检验统计力。