论文部分内容阅读
基因调控网络是由细胞中参与基因表达调控的DNA、RNA、蛋白质以及代谢中间物所形成的相互作用的网络,是目前生物信息学研究的重要内容。高通量基因芯片数据的出现和高性能计算机的使用使得用模拟计算的方法大规模的研究基因表达调控成为可能。用统计学习的方法对高通量实验数据进行分析,并利用一定的数学模型推测基因调控网络的结构,具有成本低、准确度高的特点。基于动态贝叶斯网络构建基因调控网络可以将数据的时序特点纳入模型中,因此克服了普通贝叶斯有向无环图的弱点,使得基因之间的负反馈调控过程能够得到表示,更加适合处理基因调控网络这一复杂的生物现象。论文的研究成果可以为相关的研究人员提供有效的指导和参考,为进一步的实验和研究提供帮助。
本文的创新和主要贡献如下:
(1)提出了基于动态贝叶斯网络与多源数据融合的调控网络的构建算法DBNDC算法。本文以基因表达数据和转录因子结合位点数据作为主要研究对象,基于Dempster/Shafer证据理论将两组数据进行有效融合,将成功用于传感器网络中的数据融合方法用于基因调控网络的构建。实验证明,该数据融合方法可以改善构建结果,不仅可以提高推断出的真阳边的个数,而且大大降低了假阳边的个数。
(2)提出一种带多时延的调控网络构建方法。许多基因调控网络构建方面的研究都是假设基因表达之间没有时延或者有一个不变的时延。然而生物文献表明不同的基因对之间有不同的调控时延。本文首先根据基因表达数据估计每个调控-目标基因对的转录时延,然后根据估计出来的时延重新组织基因表达数据矩阵,最后在重新组织过的基因表达数据中使用本文提出的DBNDC算法构建基因调控网络。作为对DBNDC算法的验证,本文将该算法用于酿酒酵母细胞周期表达数据,构建多时延的基因调控网络,显示了算法的有效性。