【摘 要】
:
随着高通量基因分型技术的发展,复杂疾病的研究重点逐渐转向对全基因组关联分析(GWAS),其中主要面向的对象是单核苷酸多态性(SNP)。SNP是指基因组上由单个核苷酸变异所引起DNA序列多态性,是人类遗传中一种最常见的可遗传变异。研究表明,人类患有的大多数疾病都与SNP有着密切的联系,可以通过对多致病因素与疾病的因果关系建模,来辅助医生对病人进行提前诊断和精准治疗。但SNP数据集通常样本量较少,信噪
论文部分内容阅读
随着高通量基因分型技术的发展,复杂疾病的研究重点逐渐转向对全基因组关联分析(GWAS),其中主要面向的对象是单核苷酸多态性(SNP)。SNP是指基因组上由单个核苷酸变异所引起DNA序列多态性,是人类遗传中一种最常见的可遗传变异。研究表明,人类患有的大多数疾病都与SNP有着密切的联系,可以通过对多致病因素与疾病的因果关系建模,来辅助医生对病人进行提前诊断和精准治疗。但SNP数据集通常样本量较少,信噪比较低,不含有致病模型的真实信息,不利于后续的SNP交互作用分析,且目前对于不同致病位点对疾病的影响的研究并不够深入,如何建模致病模型与疾病因果关系才是关键。针对上述问题,1.提出一种多原因致病数据仿真框架,主要结合SNP数据的生物特性、SPN致病模型和多致病模型之间的关系三部分进行设计,并按照单位点致病模型和多位点致病模型两个流程进行实现。本研究设计的多原因致病数据仿真框架主要针对多致病原因对疾病的因果关系的问题,与其他仿真框架相比,本方法有着允许用户根据研究需求自己设定致病模型、可以将多个不同的致病模型嵌入到数据中、能够设定2-way的INME致病模型和不依赖随机种子,能够高效快速的生成具有生物特性的多原因致病SNP数据的优点。2.在多原因致病因素与疾病因果关系建模阶段,根据现代的因果观,提出了一种样本隶属度的概念,并给出了数学模型,用于分析患病样本与致病模型之间的因果关系。3.通过样本隶属度,提出了基于隶属度的致病因素与疾病关联建模算法MMA,该算法针对多原因致病问题,采用样本堆积的方式,将每个样本根据样本隶属度,在多个致病模型上进行软划分,通过划分的结果,来更新致病模型与样本的因果关系,通过不断迭代得到稳定的结果。实验结果表明,该算法能够准确的反映出多个致病模型与疾病间的因果关系,同其他算法相比,该算法的准确度提升了40%以上,且该算法具有不需要设置超参数,不依赖初始划分结果,擅长确定多原因致病与疾病因果关系的优点。综上,针对多致病原因与疾病因果关系的问题,本文设计了一种多原因致病数据仿真系统,定义了样本隶属度,提出了基于隶属度的致病因素与疾病因果关系建模算法MMA,将仿真数据与真实数据应用到MMA,通过实验对MMA算法进行了分析,并与其他算法进行了对比,对复杂疾病分析以及精准医疗的发展做出了贡献。
其他文献
时间序列数据是在不同时间上收集到的数据,用于所描述现象随时间变化的情况。这类数据反映了某一事物、现象等随时间的变化状态或程度。时间序列数据在现实生活中广泛存在,例如金融领域中的交易数据和经济统计数据、消费电商领域中的用户浏览和购买数据、医疗领域中的医疗器械的信号记录、天气监测站记录的天气指标数据等这些时间序列数据是相应领域的非常宝贵的数据资源,对这些数据的准确、有效分析和利用能够帮助减小人力成本,
在大气层中,随着飞行器飞行速度的不断提高,飞行器会逐渐面临音障、热障、黑障等重要挑战。临近空间高超声速飞行器在再入大气的过程中,具有很高的飞行马赫数,与背景大气之间产生剧烈的摩擦,进而导致飞行器表面及其周围气体温度急剧上升。高温会导致飞行器表面变形甚至熔化,需要采用新型热防护材料来克服“热障”带来的困扰。在高温的作用下,包覆在飞行器周围的气体会发生热化学电离反应,产生一层“等离子体鞘套”。等离子体
近年来,高速摄像机在军工、航天、医疗和科研等方面的发展引人注目。它可以记录高速运动物体的运动状态,使用高帧率来捕获人类眼球无法观察的高速运动画面,并在采集完成后,通过超慢速回放来观察高速运动物体轨迹。但目前市面上的高帧频摄像机尚不具备长时间工作的能力,原因是高帧率的摄像机往往帧率过大,每秒产生的数据量也随之增大,这给存储系统带来了巨大压力。因此,本文针对高帧频图像实时压缩算法以及FPGA硬件实现展
随着中国航天技术的不断发展,星载嵌入式计算机的系统功能日益复杂,执行的任务形式和种类越来越多样,在计算和存储资源受限的背景下,如何对其存储的数据进行高效的分析和管理成为了新的挑战。SQLite数据库是一种直接嵌入到应用程序中、零配置、轻量、高效的软件,能够很好地解决单一文件系统对大量数据的统计分析能力不足的问题,有效降低应用开发的复杂度,提高应用程序的性能和稳定性。本论文以实际项目需求为背景,结合
作为无线通信系统的重要组成部件的天线,其宽带化研究显得尤为重要。近几十年来,微带天线的发展极大推动了天线事业的进步,然而其进一步发展受限于较窄带宽。而近年来,一种直接以超表面作为辐射体的天线发展迅猛,其具备微带天线的低剖面等众多优点,还相比微带天线有着更加丰富的模式和更宽的带宽。尤其是在引入特征模理论来预测模式和指导馈电结构设计之后,超表面天线在宽带等多个方面取得了长足进步。然而,这类天线的馈源还
染色质三维结构在基因调控、DNA复制、DNA损伤修复及疾病中起到关键作用,通过折叠将线性基因组上本不相邻的基因位点拉近从而支持远程交互发生。为从全基因组层面研究染色质空间结构与调控关系,高通量染色体构象捕获技术(High-through chromosome conformation capture,Hi-C)应运而生。通过对细胞系中蛋白介导的邻近DNA片段高通量测序,获得全基因组范围内染色质相互
本文利用集成学习算法来解决辐射源识别问题,针对分类器设计过程中常见的特征选择、信噪比变化、新辐射源样本这三个问题,给出了相应的解决方案,并通过仿真实验证明方案的有效性。为了解决更复杂的辐射源识别问题,分类器中必须引入更多的辐射源特征,这会导致信号处理流程的负担过重;而且特征向量维度的增加容易在分类器的训练过程中造成计算量大幅度提高,由于集成学习算法由许多个基分类器构成,计算量对算法的影响会更加明显
视觉目标跟踪是计算机视觉的核心问题之一。基于孪生网络的判别式深度学习方法在单目标跟踪领域取得了优越的性能,但是为了保证跟踪速度,主流的跟踪器普遍采用常规卷积主干网络,导致模型在跟踪精度上有所损失。针对现有跟踪器未能有效挖掘目标特征的缺陷,本文引入注意力机制,构造了自注意力和空间注意力模块实现判别学习和特征融合,在不显著增加额外计算量的同时提升了单目标跟踪模型的性能。此外,针对多目标跟踪中基于中心点
微服务架构将应用程序划分为一组松散耦合的细粒度服务,这些服务相互协作形成了多条存在交叉的微服务链。合理地为服务分配资源,能够有效解决服务链交叉带来的资源竞争问题,同时也是任务调度过程中提高资源利用率、降低任务响应时间的关键。而现有的研究中往往忽视或简化了服务链交叉访问微服务时产生的冲突问题,导致系统调度效果差。本文针对以上问题,从系统建模和调度算法两方面进行了优化研究,具体工作如下:(1)为准确预
伴随着集成电路对DC-DC变换器的智能化、可配置化以及产品设计和迭代周期的快速化要求,数字开关电源受到了广泛的关注。其环路控制通过数字方式构成,具有可配置参数,设计周期短,应用环境灵活,可实时监控工作状态的优势。数字脉宽调制(DPWM)电路是数字DC-DC控制环路的关键部分。其性能决定了DC-DC输出电压的范围、精度以及纹波大小,故高精度DPWM的实现是值得关注的设计要害。本文讨论了计数器、延迟链