论文部分内容阅读
伴随着生物测序技术的高速发展和不断涌现的新型生物学原始数据,如何有效地整合各种数据、从分子水平上挖掘基因的信息、预测基因功能、构建基因表达网络、调控网络、代谢网络等承载生命过程的复杂网络系统,是生物学、生物信息学以及生物统计学面临的巨大挑战。面对不断进步的生物技术和产生的新问题,本文将分析两个推断基因表达谱和基因表达网络结构中的统计问题。
本文的第一部分以新一代测序数据为基础,分别使用带约束最小二乘法和贝叶斯法来解决基因表达谱推断中的多重匹配问题。前人只利用唯一匹配数据来推断基因表达谱,这样在很多数据集上会损失近一半的有效信息。而本文使用的两个方法可以利用全部信息有效解决基因与小片段的多重匹配问题,并且在唯一匹配时与传统模型保持一致。本文将测序小片段与人类非编码RNA(ncRNA)基因库进行匹配,并根据匹配结果建立分组算法以降低数据维度。本文通过模拟试验和实际数据(来自辐射诱导肺癌细胞的新一代测序数据(A549))对两个方法进行比较。试验结果显示通过Gibbs抽样实现的贝叶斯方法相对更加稳定,较少依赖先验信息,并且可在所有分组结果上实现。
本文的第二部分讨论如何在基因表达数据的基础上研究基因间的相互关系,即利用观测数据在网络模型空间上进行模型选择。通常的模型选择方法是根据数据按照某一指标选择出一个最优模型。但对同一个数据来说,往往不同的多个模型都可以产生这个数据。这样,若从数据出发来推断模型,则一个数据实际对应多个模型所以本文类似于参数估计中的置信区间,提出在模型候选集上建立置信集这一新概念,使模型置信集以很高概率覆盖真实模型。由于图模型常用于研究稳定状态下基因网络结构,所以本文首先建立一般意义下的模型置信集及相应的假设检验,然后主要在图模型的基础上将其实现,并分析置信集的各种性质。本文比较了置信集在不同样本量、不同设计函数和不同模型候选集上的性质,并且建立了模型置信集和调节参数间的关系,给出调节参数的置信限,为有限样本下调节参数的选取提供依据。之后本文使用上述方法在流式细胞数据上建立模型置信集,用于推断蛋白信号网络结构。