一种利用机器学习策略提高复杂性状全基因组预测准确性及计算效率的方法开发

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:jack0418
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组预测是一种利用覆盖全基因组标记预测未知表型的新兴技术,随着测序技术的不断更新和日趋成熟,基因分型成本越来越低,全基因组预测逐渐被推广应用于动植物选育以及人类疾病风险评分。统计方法在全基因组预测中起到至关重要的作用,直接影响表型的预测效果。基于亲缘关系的BLUP系列方法计算过程简单,具有较高的计算效率,但由于其模型假设粗糙,预测准确性往往不理想;基于标记效应的Bayes系列方法模型假设灵活,具有较高的预测准确性,但由于其复杂的参数求解过程,计算效率低下。如何兼顾高准确性及高计算效率的双重优势,开发出快、准、稳的全基因组预测方法,是当前的研究热点和难点。
  本研究提出了一种利用机器学习过程提高复杂性状预测准确性及计算效率的方法,名为“KinshipAdjustedMultipleLociBestLinearUnbaisedPrediction”,简称KAML。其机器学习过程整合了交叉验证、多元回归、网格搜索和二分法迭代等算法,能够准确地将大效应标记纳入线性混合模型作为协变量,并同时将标记贡献进行权重,构建性状特异的基因组亲缘关系矩阵作为随机效应项。通过模型选择过程自动切换5种不同模型,能够覆盖各类不同复杂程度遗传构建的性状。整个机器学习过程可实现高效并行运算,能够在提高预测准确性的同时保持较高的计算效率。
  利用模拟表型、人类疾病以及动植物经济性状与多种方法进行比较,评估结果显示:
  (1)KAML能够根据性状的遗传构建复杂程度不同,利用机器学习过程准确地选择可作为协变量的大效应标记,优化出标记权重合理的基因组亲缘关系矩阵,智能地选择最优预测模型,证实了机器学习中算法的合理性、有效性及准确性;
  (2)KAML的预测准确性显著高于线性混合模型GBLUP,近似等同或略优于BSLMM、BayesR等Bayes方法,且在多物种不同表型上具有更好的稳定性,计算效率高于Bayes方法数百倍;
  (3)利用部分群体运行KAML所获得的预估参数可直接应用到更大群体,KAML在保持高预测准确性的同时,计算效率几乎等同于GBLUP方法,展现了KAML处理育种大数据的优势;
  (4)KAML可与一步法SSGBLUP进行整合,利用KAML优化的基因组关系矩阵能同时提高SSGBLUP对分型及未分型个体的预测准确性,进一步拓展了KAML在畜禽基因组育种及人类疾病风险预测中的应用。
  凭借着预测准确性和计算效率的双重优势,KAML将成为全基因组预测领域新的重要方法和工具。
  
其他文献
灰树花是著名的食药兼用菌,其味道鲜美、口味独特,具有防癌、抗癌、提高人体免疫力等功效,市场需求日益增大。灰树花人工栽培技术虽已取得成功,但生产中仍存在很多问题,导致经济效益低甚至栽培失败,如品种单一、生物学效率低、生产周期较长等,严重制约了灰树花产业的健康发展。近年来,有关灰树花的研究报道很多,以子实体营养成分提取及药用保健功效方面为主,但有关栽培方面的研究却少有报道。  本试验对灰树花精准化栽培
学位
核桃(Juglans regia L.)材质坚硬、坚果营养丰富,是重要的经济树种,广泛栽培于世界各地。核桃仁的主要成分是脂肪酸,其中含有大量的不饱和脂肪酸,如亚油酸、亚麻酸,均是人类的必需脂肪酸,对人体生长发育和健康具有重要的作用。深入研究核桃脂肪酸形成的分子机制,特别是解析不饱和脂肪酸的形成机制,将为实现不饱和脂肪酸合成调控奠定理论基础,并为创建新种质提供技术和方法。本试验采用转录组测序技术分析
学位
水分在苹果生长发育过程中起着重要的作用,是植物生命活动中不可或缺的重要组成成分。矮砧密植栽培是我国苹果生产发展的方向,进行矮砧密植栽培的重要途径就是矮化砧木的选择利用,矮化砧木可以合理调控树势、促进早花早果,改善果实品质,增加产量。我国华北地区矮化砧木的利用形式以矮化中间砧为主,目前生产上广泛推广应用的SH40、冀砧1号等砧木克服了M26中间砧抗寒性弱易抽条的弊病,抗寒性得到了大幅提升,而我们华北
学位
矮化密植栽培因其产量高、果实品质好、早果早产及方便生产管理,成为现代果树生产的发展趋势。但是因国内没有矮化效果好的梨矮化砧木,通过嫁接中间砧得到矮化效果好的苗木,筛选适宜的中间砧,为实现密植栽培开辟新的途径。本研究采用当年二重枝接的嫁接方法,接穗为生产上常用的鸭梨,中间砧选用雪青、新梨7号、爱宕、中矮1号(S2)和鸭梨(对照),基砧为杜梨,中间砧长度为30cm和20cm,对不同中间砧苗木的生长状况
学位
葡萄座腔菌(Botryosphaeria dothidea)是引起轮纹病害的主要病原。我国梨树种植区均普遍感染轮纹病害,主要在梨枝干和果实上引起溃疡、轮纹症状,严重时造成毁园,影响了梨产业的健康发展。真菌病毒介导弱毒菌株可作为生物防治真菌病害的一条主要途径。本研究分析了侵染梨轮纹病菌菌株真菌病毒(BdCV1和BdPV1)对寄主表型、产孢、细胞结构等生物学特性的影响,对来源于湖北省梨寄主的轮纹病菌分
辣椒作为重要的经济作物,在蔬菜生产中占据重要地位,但辣椒在种植过程中容易遭受病虫害的威胁,三唑类杀菌剂苯醚甲环唑是防治辣椒炭疽病等真菌性病害的主要农药品种之一,应用广泛且用量较大,然而我国的农药利用率普遍较低。因此,辣椒种植体系中苯醚甲环唑沉积规律、消解特征及其施药限量研究对提高农药利用率、降低农药使用量具有重要科学与现实意义。本文以典型杀菌剂苯醚甲环唑为目标农药,以露地辣椒-土壤生态系统为研究对
学位
R基因中最大的类型为NBS-LRR,根据NBS-LRR基因保守区域设计引物,从多种植物中克隆到许多结构上与抗病基因类似的序列(RGAs)。稻瘟病是水稻的重要病害,已从水稻中克隆并验证了3个抗稻瘟病基因的功能,它们都属于NBS-LRR类抗病基因。本文用简并引物从广东普通野生稻中克隆出多条RGA并测定其序列,并对序列进行了分析。用RT-PCR从培矮64中扩增出抗稻瘟病基因Pi-k全长cDNA。1.根据
学位
猪繁殖与呼吸综合征(Porcine Reproductive and Respiratory Syndrome,PRRS)是由猪繁殖与呼吸综合征病毒(Porcine Reproductive and Respiratory Syndrome Virus, PRRSV)引起的一种仔猪呼吸道障碍和母猪繁殖障碍的免疫抑制性传染病。本课题组前期研究发现,在进行人工感染PRRSV时,通城猪与大白猪相比具有较
学位
羊传染性口疮(Orf)是由副痘病毒引起的在山羊和绵羊群体中具有高传染性的人畜共患病。尽管目前有减毒和灭活的orf病毒(ORFV)疫苗,但它们既不能引起持久免疫,也不能避免再次感染。KISSI基因编码的吻素(Kisspeptin)通过与GPR54受体结合调控下丘脑-垂体-性腺轴(hypothalamic-pituitary-gonadalaxis,HPG轴),尽管kisspeptin作为促性腺激素释
鸡毒支原体(Mycoplasma gallisepticum, MG)主要引起鸡慢性呼吸道疾病(Chronic Respiratory Disease,CRD),感染率极高,且常与其他病原微生物继发或并发感染,给世界家禽业带来巨大的经济损失。MG感染宿主后与特异受体结合,通过宿主呼吸黏膜屏障进入血液循环,导致全身器官和组织感染,但其致病机制至今尚未阐明。研究证实外泌体可携带miRNAs随循环系统进