论文部分内容阅读
重大疾病的致病机理非常复杂。从遗传角度来看,复杂疾病是由基因-基因、基因-环境交互作用导致的结果,因此寻找致病基因是复杂疾病研究中的核心问题。基于高通量技术获得的多组学数据,能从不同层面反映复杂疾病分子变化图谱,有助于揭示复杂疾病致病机理。因此,开发高效的生物信息学方法,从多组学数据中识别出复杂疾病的致病基因成为非常关键的科学问题。现有研究方法大多基于连锁分析和全基因组关联分析,不能有效确定致病基因,同时存在成本高和假阳性多的问题。
在细胞中,分子之间通常以相互作用网络的形式发挥具体的生物学功能,因此需从分子网络角度来识别致病基因。在分子网络中识别致病基因应用最广泛的是随机游走算法,尤其是PageRank算法。该算法虽在识别致病基因方面取得一定的研究进展,但在整合多组学数据、对应多层分子网络数据和遗传信息先验知识方面仍有较大的提升空间。本论文基于随机游走算法,同时整合多组学数据、对应多层分子网络和遗传信息先验知识,在不同应用背景下结合生物分子网络对致病基因、致病模块的识别方法进行了系统研究,分别提出了双层异质分子网络的双层排序算法、多层生物分子网络的整合排序算法、高维分子网络的张量排序算法和基于表型驱动的模块检测及排序算法,为整合不同组学数据和网络数据识别病致病基因、致病模块提供了可行的研究思路。本论文研究内容概述如下:
(1)目前,基于PageRank算法识别致病基因在单层生物分子网络中的研究较多,而在双层分子网络中的研究相对较少。本论文针对双层异质分子网络中的致病基因识别问题,提出了基于双层异质分子网络的随机游走算法——双层排序算法。该算法基于权重整合疾病两种组学数据和对应双层分子网络,并加入遗传信息来创建特异性双层异质分子网络;基于双层排序算法,获得节点双层排序特征值,进而衡量节点重要性,并将其用于Ⅱ型糖尿病致病基因的识别。结果表明,双层排序算法能有效识别致病基因,该算法为整合两种组学数据和对应双层分子网络识别致病基因提供了参考。
(2)将多组学数据与对应多层生物分子网络结合用于识别致病基因已成为研究热点,现有方法大多基于整合多个网络结构或部分组学数据和网络,没有把对应的组学数据与网络进行有效整合。本论文针对多层生物分子网络中的致病基因识别问题,提出了基于整合的有约束随机游走算法——整合排序算法。该算法基于权重整合疾病多组学数据和对应多层分子网络,加入遗传信息来构建多层特异性分子网络,以约束的形式嵌入多层网络的信息流向;基于整合排序算法,获得节点整合排序特征值,进而衡量节点重要性,并将其用于肝癌和前列腺癌致病基因的识别。结果表明,整合排序算法能有效识别多层分子网络中的致病基因,与其他算法相比具有显著优势。该算法以约束的形式嵌入了遗传信息先验知识,为整合多组学与对应多层分子网络识别致病基因提供了借鉴。
(3)在识别复杂疾病致病基因时,存在异源多组学数据,如何将这些数据和分子网络进行有效整合用于识别致病基因已成为研究关键。现有方法大多基于整合多个单层网络中心度结果,忽略了数据的整体性。本论文针对高维分子网络中的致病基因识别问题,提出了基于张量的随机游走算法——张量排序算法。该算法基于权重整合疾病异源多组学数据和多属性分子网络创建高维特异性分子网络,用张量表示;基于张量排序算法,获得节点张量排序特征值,进而衡量节点重要性,并将其用于识别Ⅱ型糖尿病和阿尔兹海默症的致病基因。结果表明,张量排序算法能有效识别高维分子网络中的致病基因,效果优于其他方法。该算法将运算从矩阵空间提升到张量空间,为从多维异质异源高通量组学数据中识别致病基因提供了一般性的方法框架。
(4)在生物分子网络中,分子一般组成网络模块或通路来发挥其具体功能,因此致病模块的识别尤其重要。现有方法大多基于网络聚类或基因集分析,鲜有算法将二者结合。本论文针对生物分子网络中的致病模块识别问题,提出了基于表型驱动的模块检测和排序算法——模块排序算法。该算法基于权重整合疾病单组学数据和对应单层分子网络构建特异性分子网络,利用有指导的网络模块检测策略;以模块为节点,建立网络超图,基于超图的模块排序算法识别致病模块,将其用于肝癌致病模块的识别。结果表明,模块排序算法能有效识别致病模块,与其他算法相比具有优势。该算法结合了有指导的模块检测策略,实现了从识别网络中单节点模式特征到网络局部特征的拓展。
在细胞中,分子之间通常以相互作用网络的形式发挥具体的生物学功能,因此需从分子网络角度来识别致病基因。在分子网络中识别致病基因应用最广泛的是随机游走算法,尤其是PageRank算法。该算法虽在识别致病基因方面取得一定的研究进展,但在整合多组学数据、对应多层分子网络数据和遗传信息先验知识方面仍有较大的提升空间。本论文基于随机游走算法,同时整合多组学数据、对应多层分子网络和遗传信息先验知识,在不同应用背景下结合生物分子网络对致病基因、致病模块的识别方法进行了系统研究,分别提出了双层异质分子网络的双层排序算法、多层生物分子网络的整合排序算法、高维分子网络的张量排序算法和基于表型驱动的模块检测及排序算法,为整合不同组学数据和网络数据识别病致病基因、致病模块提供了可行的研究思路。本论文研究内容概述如下:
(1)目前,基于PageRank算法识别致病基因在单层生物分子网络中的研究较多,而在双层分子网络中的研究相对较少。本论文针对双层异质分子网络中的致病基因识别问题,提出了基于双层异质分子网络的随机游走算法——双层排序算法。该算法基于权重整合疾病两种组学数据和对应双层分子网络,并加入遗传信息来创建特异性双层异质分子网络;基于双层排序算法,获得节点双层排序特征值,进而衡量节点重要性,并将其用于Ⅱ型糖尿病致病基因的识别。结果表明,双层排序算法能有效识别致病基因,该算法为整合两种组学数据和对应双层分子网络识别致病基因提供了参考。
(2)将多组学数据与对应多层生物分子网络结合用于识别致病基因已成为研究热点,现有方法大多基于整合多个网络结构或部分组学数据和网络,没有把对应的组学数据与网络进行有效整合。本论文针对多层生物分子网络中的致病基因识别问题,提出了基于整合的有约束随机游走算法——整合排序算法。该算法基于权重整合疾病多组学数据和对应多层分子网络,加入遗传信息来构建多层特异性分子网络,以约束的形式嵌入多层网络的信息流向;基于整合排序算法,获得节点整合排序特征值,进而衡量节点重要性,并将其用于肝癌和前列腺癌致病基因的识别。结果表明,整合排序算法能有效识别多层分子网络中的致病基因,与其他算法相比具有显著优势。该算法以约束的形式嵌入了遗传信息先验知识,为整合多组学与对应多层分子网络识别致病基因提供了借鉴。
(3)在识别复杂疾病致病基因时,存在异源多组学数据,如何将这些数据和分子网络进行有效整合用于识别致病基因已成为研究关键。现有方法大多基于整合多个单层网络中心度结果,忽略了数据的整体性。本论文针对高维分子网络中的致病基因识别问题,提出了基于张量的随机游走算法——张量排序算法。该算法基于权重整合疾病异源多组学数据和多属性分子网络创建高维特异性分子网络,用张量表示;基于张量排序算法,获得节点张量排序特征值,进而衡量节点重要性,并将其用于识别Ⅱ型糖尿病和阿尔兹海默症的致病基因。结果表明,张量排序算法能有效识别高维分子网络中的致病基因,效果优于其他方法。该算法将运算从矩阵空间提升到张量空间,为从多维异质异源高通量组学数据中识别致病基因提供了一般性的方法框架。
(4)在生物分子网络中,分子一般组成网络模块或通路来发挥其具体功能,因此致病模块的识别尤其重要。现有方法大多基于网络聚类或基因集分析,鲜有算法将二者结合。本论文针对生物分子网络中的致病模块识别问题,提出了基于表型驱动的模块检测和排序算法——模块排序算法。该算法基于权重整合疾病单组学数据和对应单层分子网络构建特异性分子网络,利用有指导的网络模块检测策略;以模块为节点,建立网络超图,基于超图的模块排序算法识别致病模块,将其用于肝癌致病模块的识别。结果表明,模块排序算法能有效识别致病模块,与其他算法相比具有优势。该算法结合了有指导的模块检测策略,实现了从识别网络中单节点模式特征到网络局部特征的拓展。