遗传异质性加权U统计模型的评估与应用研究

来源 :山西医科大学 | 被引量 : 0次 | 上传用户:ffgghhaz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:
  大规模全基因组测序研究逐渐成为生物遗传与医学研究关注的重要内容,上千种基因与人类复杂疾病的关系已从病理生理及病因学角度得到了比较合理的生物学解释。但是由于更多的人类复杂疾病,可鉴定与解释的遗传变异仅仅是生物遗传因素的一部分。既往研究表明,具有相同或相似临床表现的某些复杂疾病可能具有不同的潜在遗传病因,寻找其罕见变异,探索基因-基因互作及基因-环境互作,结构变异及其它引致遗传力缺失的遗传变异研究尚存在许多未解的难题。有关遗传异质性的研究中,现有的统计方法通常都假定研究疾病均具有相同的遗传效应。若某疾病存在遗传病因的异质性时,现有方法对疾病与遗传因素的关联性分析,有可能会降低其检验效能,甚至得出假阳性分析结果。
  本研究拟针对现有分析方法低估遗传变异效应问题,提出一种基于U统计量分析的非参数统计方法——异质性加权U检验,集中解决由遗传变异引致的异质性效应;并通过探讨异质性加权U统计量的渐近分布,进而证实该方法高效的计算性能;通过调整加权方案,为解决更多的遗传效应模型应用问题提供新思路。
  方法:
  本课题针对既往遗传变异异质效应分析中,分析方法均需假定研究疾病具有相同的遗传病因,缺乏可以用来推断群体异质性亚群(潜在相似度)先验知识的问题,采用重复模拟研究,证实并提出解决有关遗传异质性问题对应的高维数据统计分析方法。模拟人口亚群,按遗传效应、效应大小和方向等设置不同的遗传异质性模型,进而证实异质性加权U、非异质性加权U和GLM等方法的计算效率及灵活性等,以发展改进并提出一些解决低估遗传变异影响力的分析思路与方法,开展对不同亚群(如性别和种族)遗传变异产生的影响研究。发展一种不依赖基因表型特定分布,可广泛应用于定性和定量基因表现型样本分析的方法。结合尼古丁依赖SAGE实例验证并分析具有潜在人群结构与遗传变异,以某种联合方式产生的效应,为遗传变异变量间相互作用问题研究提供新方法。
  在两个遗传异质性和第三个专门针对非正态分布与错误指定权重函数的模拟试验的集合中,设R=I,基于欧几里德距离的ki,j和交叉积的f(gi, gj)来形成加权函数。每次模拟均重复1000次。根据1000次重复中,P值小于或等于0.05的比率,对比研究异质性加权U、非异质性加权U和常规广义线性模型(GLM)等模型方法的检验效能和Ⅰ型错误。
  基于尼古丁依赖的SAGE实例,选取IlluminaHuman1MDNAAnalysisBeadChip芯片基因分型的26个尼古丁依赖相关基因和表型变量等,取基因型所需的最小后验概率为0.9,用Beagle软件进行基因型填补。在对基因型数据进行质量评估基础上,检查每个标记、基因型调用比例等,删除调用比例不足90%的标记,剔除基因型缺失10%以上的个体;并使用标记的最小等位基因均值来填补;对照Hardy-Weinberg平衡标记出过度偏差的标记物等。利用交叉乘积核来计算遗传相似度f(Gi, Gj),运用异质性加权U,结合可能存在的性别异质性效应,逐个分析26个候选基因与尼古丁依赖的关系。对潜在的混杂效应性别、种族、样本来源以及根据全基因组数据计算的前四个主成分作为协变量进行分析。
  结果:
  1.异质性加权U检验在遗传异质性模型分析中优势更为突出
  模拟试验一:假设有两个人口亚群,按照效应大小和方向模拟设置了四种遗传异质性模型,对比分析了异质性加权U、非异质性加权U和GLM三种方法的Ⅰ型错误和检验效能。进一步证实了异质性加权U检验在遗传异质性模型分析中,与非异质性加权U和GLM法相比,控制的Ⅰ型错误更小,方法检验效能更高。
  呈非正态潜在基因表型分布分析时,异质性加权U检验相较基于参数的GLM法更稳健。为进一步证实遗传模式不明确时的新方法性能,本研究在两个亚群中模拟设置了不同的七种遗传模式,进而证实并提出:当亚群中存在明显的遗传异质性时,异质性加权U优于非异质性加权U及GLM法。
  2.遗传异质性越大的分类和连续型基因表型分析异质性加权U的计算性能更佳
  模拟试验二:设定亚群数量增加到20个,潜在结构协变量25个,以更接近真研实景中复杂的潜在人口结构。分别运用异质性加权U、非异质性加权U和GLM三种方法,对二分类和连续型表型数据进行模拟证实。结果表明,复杂潜在结构的二分类和连续型表型数据,采用异质性加权U分析,都明显优于非异质性加权U和GLM法。当遗传异质性可忽略不计时,三种方法性能基本相近。但对生物遗传信息利用模型研究中,若纳入噪声参数时,异质性加权U与非异质性加权U和GLM三种方法的检验效能均有所降低。异质性加权U与非异质性加权U和GLM三种方法的几种模型的Ⅰ型错误均小于0.05。无论是二分类表型,还是连续型表型,异质性加权U都具有更高的检验效能;遗传异质性越大,异质性加权U的性能更佳。
  3.多基因模型异质性加权U较VCscore检验不仅能更好的控制Ⅰ型错误,且具有更高的检验效能
  模拟试验三:设基因信息大数据分析的随机效应模型模拟表型为:yi=μ+Ziα+giβi+εi,εi~F,式中,Zi:受试对象i的协变量;a:协变量效应估计系数,误差F服从非正态分布。通过模拟自由度为2的t分布、柯西分布和正态与卡方的混合分布等;并对含有混杂效应(模拟生成与gi相关联的Zi,由于a≠0,Zi也和yi相关联)和未含混杂效应的两种情况,模拟对比异质性加权U和VCscore法的研究过程中都纳入协变量Z的100万个模拟数据研究。进而证实异质性加权U和方差分量评分检验(VCscore),考虑混杂效应基础上,应用自由度为2的t分布、柯西分布和正态和卡方混合分布的稳健性均好。无论是否含有混杂效应,三种非正态分布中异质性加权U均未发现可加大Ⅰ型错误。但存在混杂效应且误差F服从柯西分布时,VCscore法可能会加大Ⅰ型错误。当权重函数指定有误,异质性加权U法虽然控制的Ⅰ型错误很好,但检验效能却有所降低。当含有协变量缺失或加入噪声协变量时,异质性加权U的检验效能也会降低。当临界值取5×10-5时,异质性加权U的I型错误为4.0×10-5。
  4.异质性加权U在复杂结构基因大数据分析中的应用
  基于国际上人群迄今为止最大且最全面遗传与环境成瘾性研究(Study of Addiction: Genetics and Environment,SAGE)中,来自酗酒遗传学合作研究(COGA)、可卡因依赖的家系研究(FSCD)和尼古丁依赖的合作遗传学研究(COGEND)三个较大的互补数据集实例,其中女性1445名,男性1272名,包括807名非洲裔美国人,1910名欧洲裔美国人。本研究主要针对尼古丁依赖的Fagerstrom测试项目(FTND)中的每日吸烟量(CPD)的终身得分(lifetime score)、尼古丁使用和依赖的遗传学研究中经常用到的表型变量[16]、有关的人口学特征(如年龄、性别)及环境条件和物质滥用过程的评估[25,26]等资料进行实例验证。
  考虑性别遗传异质性的实例研究表明,对26个尼古丁依赖候选基因,经异质性加权U分析,17个基因与尼古丁依赖有关;非异质性加权U则仅分析出1个基因与尼古丁依赖有关。在CHRNA5-CHRNA3-CHRNB4基因簇和CHRNB3-CHRNA6基因簇的关联性分析中,两种方法都得出了基因簇与尼古丁依赖有关联性存在的结果。针对CHRNA6和CHRNB3基因的分析结果表明,CHRNA6基因在女性与尼古丁依赖高度相关,而在男性中则尚不能认为有关联性存在;而CHRNB3基因分析则得出了恰好相反的结果。CYP基因分析结果表明,尼古丁依赖与CYP2B6基因高度相关。经对26个尼古丁依赖候选基因分析可见,有遗传异质性存在时,异质性加权U法性能更佳。
  不同群体遗传变异呈异质性分布时,传统统计方法均要假设遗传变异的影响是相同的,而本文实例分析推荐应用的异质性加权U法不仅容许遗传变异的效应不同,而且可通过调整加权函数,很容易地将该方法由基于遗传异质性检验的可加模型单位点异质性加权U,扩展成多位点效应模型或其它的遗传模型,尤其在构建潜在结构时,加权函数尚可提供一定的灵活性。
  实例验证分析表明,应用本文介绍的异质性加权U方法,不需要对基因表型进行分布的假设检验,为遗传关联分析提供了结果更稳健、性能更优越的新方法。解决现有统计分析方法无法解决的大数据复杂性问题。
  结论:
  课题通过对结构复杂的基因大数据模拟对比和实例验证,完善发展了异质性加权U法,解决了未知基因表型分布研究中的一个难题。三次模拟试验证实,异质性加权U不仅能很好地控制Ⅰ型错误,即使面对更复杂的遗传环境和潜在结构数据,其检验效能均高于文中提及的非异质性加权U、GLM和VCscore检验等,并表现出优越的计算性能。但是,当加权函数指定有误或协变量含有缺失值时,异质性加权U虽优于其它方法,但检验效能也会有所降低。实例验证结果表明,与现有报道的生物学关联解释结果一致。
  异质性加权U检验,不仅可更好地控制复杂结构多基因潜在异质性模型分析中的Ⅰ型错误,且较传统分析方法具有更高的检验效能,计算效能优于非异质性加权U等。是生物遗传基因异质性大数据分析中性能优,适用范围广,可灵活应用的一种新方法。
其他文献
本论文的主要内容及创新点概括如下:1.对光子晶体的概念、原理、特性、分类、制备方法、计算方法、应用和前景进行了比较系统的综述;简要介绍了光子晶体光纤的特点、种类、制作方法、研究现状及其潜在应用价值.2.采用光参量放大器泵浦2.5米保偏PCF获得了超过两个倍频程(300 nm-1350nm)的超连续谱,在1.5 μm-1.8 μm范围内也观察到了弱的光谱峰,OH离子的吸收造成了在1.4 μm左右的光
该论文基于TiO上述结构特点,在系统分析了国内外有关鱼类鲜度检测和TiO基气敏元件的基础上,提出了通过材料预处理、重掺杂、长时效热处理和改变电极结构等方法来降低TiO基敏感材料阻值、改善气敏特性;详细研究了各种方法对TiO基敏感材料阻值Ra和灵敏度K的影响;并对TiO基敏感材料响应TMA气体的敏感机制、添加剂的催化机理进行了深入探索.该论文最终制成的In/TiO·NbO·SbO复合氧化物TMA敏感
学位
卫星移动通信是实现全球个人通信的主要手段之一.该论文对小卫星通信系统的信道特性,系统特性以及同步问题进行了研究,并进行了相应的仿真.卫星移动通信主要靠直视分量工作,提出的部分阴莱斯信道认为阴影只作用于直视分量,而不作用于多径分量.该文作者认为与全阴影莱斯信道相比,部分阴影莱斯信道更强调直视分量的主导作用,而不考虑阴影对多径分量的作用,阐述的物理意义更明确.该论文共分五章.第一章介绍了该课题的研究背
H控制和H控制在现代控制理论中占有极其重要的地位,在众多领域内受到了广泛的关注,并取得了不少研究成果.上世纪80年代末期提出的H/H混合控制问题作为一种多目标控制问题,则是将H2性能设计与H性能设计相结合,使整个系统既可以获得优良的调节性能,又可以保持鲁棒稳定性.而变结构控制则以其在滑动模态上对参数摄动和外干扰在一定条件下的完全鲁棒性而受到研究者的重视,研究也覆盖了飞行器控制、机器人控制、电机与电
学位
倒立摆的控制是控制理论应用的一个典型范例。它是检验各种新的控制理论和方法的有效工具。作为一个高阶、非线性不稳定系统,倒立摆的稳定控制相当困难。一个稳定的倒立摆系统对于证实状态空间理论的实用性是非常重要的。由于倒立摆系统与火箭飞行以及走行机器人有很大相似性,因此倒立摆的研究对于火箭飞行以及走行机器人控制等现代高技术的研究具有重要的实践意义。本文以直线轨道倒立摆为实验平台,使用最优控制、模糊控制和模糊
本论文的研究工作涉及紫外技术的两个方面:荧光探针技术和紫外光催化合成技术.论文的第一部分研究了新类型4-AP荧光探针的合成技术;第二部分的研究是关于紫外光催化技术在甲烷、二氧化碳直接合成丙酮反应中的应用.第一部分设计并合成了三个系列的4-AP类荧光探针:N-取代-4-AP,(N-取代-邻苯二甲酰亚胺-4-)-胺基甲酸乙酯,(N-取代-邻苯二甲酰亚胺-4-)-马来酰亚胺,其中,(N-取代-邻苯二甲酰
学位
汽车排气中含有大量的CO和一定量的NO.该文采用28~50mesh的莫来石颗粒为载体,以柠檬酸盐法制备了一系列负载型LaSrCuO和LaSrNiO复合金属氧化物催化剂,XRD和SEM表征了它们的结构,并在CO氧化和NO分解的反应中进行了活性和动力学的研究.负载在莫来石上的LaSrCuO催化剂用于CO氧化时,在低于300℃的温度范围内都可以达到很高的CO转化率,在400℃都完全转化;随着x的值的增大
水滑石类化合物(简称HTL),是一种有广阔应用前景的层状化合物,位于水滑石上的Mg,Al可被其它同价离子取代形成其它的水滑石类化合物.水滑石类化合物经过焙烧后所得的复合金属氧化物是一类重要的催化剂和载体,焙烧后的产物有比前驱体更大的比表面积、更强的碱性.借助于这类复合氧化物的碱性和氧化还原性,可做为催化剂及催化剂载体,来脱除SO,NO.该论文采用两种方法制备催化剂:共沉淀法制备了分别含Ni、Cu、
N-乙烯基吡咯烷酮(NVP)是合成水溶性聚乙烯基吡咯烷酮(PVP)的单体.本文的主要工作是:以氧氯化锆和四氯化锡为原料,制备了两种具有高比表面积ZrO/SnO复合催化剂:纳米颗粒型和介孔型.重点研究了复合催化剂对N-羟乙基吡咯烷酮(NHP)的催化脱水合成NVP反应过程的影响.首先,以γ-丁内酯和乙醇胺为原料,研究了γ-丁内酯胺解的主要影响因素,如反应温度,反应时间,反应时的真空度,反应物的配比,对
学位
C-βc与C-Lutein的制备 利用螺旋藻能够合成β-胡萝卜素与黄体素的特性建立了C-β-胡萝卜素(C-β-Carotene,C-βc)与C-黄体素(C-Lutein)的合成方法。实验分为两步,首先在普通Zarrouk培养基中培养极大螺旋藻,获得一定数量的藻体;第二步,将收集的藻体转入用C-NaHCO配制放射性活度为25mCi/L的Zarrouk培养基中,培养2月后收获螺旋藻,从中提取C标