新一代测序数据分析和网络模型构建

来源 :北京大学 | 被引量 : 0次 | 上传用户:luo2kai3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着生物测序技术的高速发展和不断涌现的新型生物学原始数据,如何有效地整合各种数据、从分子水平上挖掘基因的信息、预测基因功能、构建基因表达网络、调控网络、代谢网络等承载生命过程的复杂网络系统,是生物学、生物信息学以及生物统计学面临的巨大挑战。面对不断进步的生物技术和产生的新问题,本文将分析两个推断基因表达谱和基因表达网络结构中的统计问题。   本文的第一部分以新一代测序数据为基础,分别使用带约束最小二乘法和贝叶斯法来解决基因表达谱推断中的多重匹配问题。前人只利用唯一匹配数据来推断基因表达谱,这样在很多数据集上会损失近一半的有效信息。而本文使用的两个方法可以利用全部信息有效解决基因与小片段的多重匹配问题,并且在唯一匹配时与传统模型保持一致。本文将测序小片段与人类非编码RNA(ncRNA)基因库进行匹配,并根据匹配结果建立分组算法以降低数据维度。本文通过模拟试验和实际数据(来自辐射诱导肺癌细胞的新一代测序数据(A549))对两个方法进行比较。试验结果显示通过Gibbs抽样实现的贝叶斯方法相对更加稳定,较少依赖先验信息,并且可在所有分组结果上实现。   本文的第二部分讨论如何在基因表达数据的基础上研究基因间的相互关系,即利用观测数据在网络模型空间上进行模型选择。通常的模型选择方法是根据数据按照某一指标选择出一个最优模型。但对同一个数据来说,往往不同的多个模型都可以产生这个数据。这样,若从数据出发来推断模型,则一个数据实际对应多个模型所以本文类似于参数估计中的置信区间,提出在模型候选集上建立置信集这一新概念,使模型置信集以很高概率覆盖真实模型。由于图模型常用于研究稳定状态下基因网络结构,所以本文首先建立一般意义下的模型置信集及相应的假设检验,然后主要在图模型的基础上将其实现,并分析置信集的各种性质。本文比较了置信集在不同样本量、不同设计函数和不同模型候选集上的性质,并且建立了模型置信集和调节参数间的关系,给出调节参数的置信限,为有限样本下调节参数的选取提供依据。之后本文使用上述方法在流式细胞数据上建立模型置信集,用于推断蛋白信号网络结构。
其他文献
事物之间的因果机制,往往是人们认识世界的本质追求。但是由于因果关系是隐藏在事实和表象背后而无法直接观察到的,所以通过“表象”的数据来识别真实的因果关系是统计学领域一
本文在Eb-凸函数、弧式连通函数等概念的基础上,介绍了几类广义的非光滑凸函数:E(b,ρ)-凸函数、广义E(b,ρ)-凸函数、对称弧式连通函数。给出了E(b,ρ)-凸半无限规划与对称弧式连
统计学是财经类专业的核心课程,是财经类学生应熟练应用的一门技术,但作为财经类专业的专业课程,统计学内容复杂,应用领域广泛,并且需要理论与实践相互结合.针对统计学的教学
互联网的飞速发展导致了网络中的文本数据也随之迅速增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而文本自动分类技术作为文本信息处理中的一个重要环节引起
随着互联网以及移动互联网的迅速发展,新的互联网产品微博客的应用层面越来越广,影响力越来越大。微博客强化了互联网即时内容的传播,强化了互联网用户生产内容,强化了互联网
教学机智是教师在课堂教学呈现出来的一种随机应变的能力,比如在体育课堂教学中观察理解能力、判断分析的能力、冷静处理能力,等等.机智可以分为两种:主动机智和被动机智.被
本论文主要研究了针对时谐弹性波散射问题的自适应完全匹配层(PML)方法。   利用弹性波方程在球坐标系下的形式,采用复坐标延拓的思想,给出了针对时谐弹性波方程的PML方程
作为一个人,不应光为自己活着,应该为子孙后代留下点什么;作为一名共产党员,不应光图自己挣钱,而应该让更多的父老乡亲都过上好日子。这便是河北秦皇岛市新建村党支部书记蔡
对于偏微分方程解的几何性质以及水平集相关的研究,我们可以从定量和定性两个方面入手.本论文是对定义在二维凸环上的极大类空超曲面,我们用连续性方法得到它的水平线的正则
在现代代数几何中,导出函子具有重要的意义。许多经典量的计算需要导出函子的修正。例如在Riemann-Roch定理中需要计入整体截面函子的导出函子,在计算相交数时需要用张量函子的