【摘 要】
:
近年来,挖掘复杂疾病的上位效应位点已经变得越来越重要,但现存的上位性挖掘方法存在遗传性缺失、稳健性差、假阳性率高、处理大规模全基因组数据计算效率低等缺点。鉴于k-tree算法可以通过均匀抽样样本覆盖全基因组数据,贝叶斯网络能充分体现事物之间的因果关系、高效挖掘上位性位点之间的相互作用。本文提出了基于k-tree优化贝叶斯网络的近似和精确的两种上位性挖掘方法,从而可以高效检测到面向较大规模基因组数据
论文部分内容阅读
近年来,挖掘复杂疾病的上位效应位点已经变得越来越重要,但现存的上位性挖掘方法存在遗传性缺失、稳健性差、假阳性率高、处理大规模全基因组数据计算效率低等缺点。鉴于k-tree算法可以通过均匀抽样样本覆盖全基因组数据,贝叶斯网络能充分体现事物之间的因果关系、高效挖掘上位性位点之间的相互作用。本文提出了基于k-tree优化贝叶斯网络的近似和精确的两种上位性挖掘方法,从而可以高效检测到面向较大规模基因组数据的上位性位点。本工作包括以下3个方面的研究内容:(1)由于均匀抽样蒲公英编码可以较好的体现图结构与字符序列编码间的双射关系,将大规模图的结构生成转换为特定编码的生成问题。利用均匀抽样蒲公英编码构建得到包括大规模SNP位点和表型性状结点的k-tree网络结构,这样可以对全基因组的SNP位点进行较好的覆盖。然后利用基于邻居结点分解的算法将k-tree对应的图分解为不同的k-clique。(2)基于得到的不同k-clique对应的子网络,利用优化贝叶斯网络的思想提出了近似(Ktree BN)和精确(KIBEpi)两种上位性位点挖掘方法。其中,Ktree BN方法主要利用改进的贝叶斯网络结构学习Fast-IAMB算法(omb-Fast)快速学习得到不同k-clique对应的子网络结构。KIBEpi方法将不同k-clique的子网络构建看作求满足约束条件的目标函数优化的整数线性规划问题,利用割平面法、sub-IP等方法求解得到全局最优的子网络结构。最后合并所有的子网络得到整个贝叶斯网络,进而根据结点间关联关系挖掘得到影响特定表型性状的上位性位点。(3)利用业界常用的GAMETES软件生成上位性模拟数据,对提出的Ktree BN和KIBEpi方法与常用的上位性挖掘方法进行试验比较。结果表明,Ktree BN和KIBEpi方法具有较好的准确率,且运行速度、假阳性率以及F1-score均优于其他方法。此外,使用真实的与年龄有关的黄斑变性数据对Ktree BN,KIBEpi方法进行试验验证,与其它的上位性检测方法相比,两种方法可以挖掘到更多有效的上位性互作位点。
其他文献
随着国内高校信息化科研工作的进行,海量的科研文档得以积累。这些文档中蕴含着丰富的科研信息,目前并未得到有效利用。随着科研文档规模的日益增大,科研工作者若想从中快速准确地获取所需科研信息变得愈发困难。针对上述问题,本文构建了一个科研文档检索与推荐系统,从而帮助科研工作者便利高效地获取科研文档信息。构建该系统的核心工作是将科研文档转化为计算机理解的形式。为此,本文广泛调研了国内外基于机器学习的文本表示
课程论坛是在线开放课程师生交互的重要渠道,相关的测量与评估也成为在线教育数据分析研究的热点。目前用于课程评估的论坛分析常规指标包括发帖总数、参与总人数等。作者通过对某在线学习平台论坛数据的初步分析发现:不但不同学科的课程论坛交互指标的绝对数值存在较大的差异,而且相同学科内不同课程的论坛交互模式也有所不同。因此,在针对课程论坛的教学分析研究工作中,有必要开展相同学科类型课程的归一化相对分析、识别不同
数据挖掘技术在推送企业信息、提升决策效率等方面发挥着重要作用。在实际应用中,经常需要挖掘不同来源的实体之间的关联关系。不同实体对应的数据在存储结构上存在差别,称之为异构数据。多源异构数据网络信息包含数据节点的属性信息、单类网络内部的拓扑结构信息以及异构网络拓扑结构信息。当前提出的预测方法通常只利用了其中部分信息,并且局限于二分网络。为了将三类信息融合进预测过程中,提出了基于图乘运算的多源异构数据链
运载火箭应用广泛,是载人航天、商业发射等航天活动中不可或缺的运载工具。而运载火箭广阔的飞行范围,变化剧烈的气动环境,细长结构导致的弹性振动影响,使得运载火箭控制系统的设计变得更为复杂。同时运载火箭推力下降故障也可能使得控制系统的跟踪性能降低。本文以提升运载火箭姿控系统的跟踪性能为目标,对运载火箭推力下降故障下的容错控制进行了研究。研究内容如下:首先推导了推力下降故障下运载火箭的六自由度非线性数学模
Fad24(factor for adipocyte differentiation24)是一个与脂肪细胞分化密切相关的基因。已有的研究显示,fad24在肌原细胞的分化过程中呈现动态表达,而且该基因缺陷可导致斑马鱼的肌肉发育不良,这预示着fad24可能对成肌分化也具有调节作用,但其作用机制目前尚不明确。本研究利用小鼠C2C12细胞为模型,旨在系统分析fad24对成肌细胞增殖和分化的调节作用。我们利
蛋白质相互作用(PPI)网络是研究蛋白质的重要工具,故而对PPI网络的研究有助于人们系统地了解其生物多样性的过程。在科技发展的趋势下,高通量测序技术的成熟,使得PPI网络数据量爆炸式增加,促进了蛋白质相互作用网络的研究。计算机与数学统计的帮助下,蛋白质相互作用网络的数据不再是一团乱麻,利用复杂网络研究蛋白质相互作用关系也成为可能。但是仅仅通过实验测定蛋白质功能进行注释的效率跟不上大数据时代的步伐,
本文课题来源于机车螺栓AR辅助装配项目横向课题,该课题面向机车检修流程,提出一种基于AR、物联网、深度学习技术的螺栓辅助装配方案。辅助装配系统中的图像处理设备是一种基于深度学习的目标检测、目标识别设备,在物联网技术下,与辅助装配系统中其它智能设备通信。本文主要研究内容是关于该深度学习平台的模型快速训练和识别帧率优化技术。在辅助装配系统的使用过程中,如果模型的精度偏低,就需要再次采集图像,并重新训练
随着生物技术的发展,人们对sRNA (small RNA)的研究逐渐深入,在植物、动物和微生物中报道的sRNA越来越多,并且建立了sRNA数据库,为sRNA的生物信息分析提供了大量资料。生物信息学分析成为预测sRNA的重要手段并被广泛采用,较为成熟的sRNA预测方法是QRNA法和deepBase法。结合Northern杂交和生物芯片等实验手段,可以进一步验证预测sRNA的真实性。 本文通过Q
由结核分枝杆菌感染引起的结核病是21世纪一种重要的传染病。耐药性结核杆菌的出现对有效预防及控制全球范围内的结核疫情带来了极大的挑战。全球三分之一的人口处于潜伏感染说明该病的再次爆发流行且具有传染性。多重耐药/广泛耐药/全耐药新型结核分枝杆菌的出现使得结核病广泛的影响人和牲畜。劣质药物,药物滥用和不当的防控措施是造成耐药性菌株出现及耐药菌株散播的主要原因。另外结核分枝杆菌在不同压力条件下的良好适应性
果胶是一类复杂的多糖,广泛分布在植物的细胞壁中,具有增稠、乳化和凝胶等功能特性。目前商业提取的果胶大多是高酯果胶,需要进行低酯化改性才能得到低酯果胶。不同来源和改性方法会导致果胶具有不同的理化性质和功能特性。广泛使用的碱法低酯化会降低果胶分子量而影响果胶的品质。酶法低酯化利用果胶甲基酯酶(PME)选择性脱酯不改变果胶分子量但反应效率低。超高压(HHP)是一种非热加工技术,据报道可以一定程度促进PM