论文部分内容阅读
高通量组学技术由于其在全基因组水平同步检测基因、蛋白等生物大分子而革命性地改变了传统生物医学的研究。组学数据整合分析的系统生物学理念使整体性从网络角度理解与研究复杂生物系统成为了可能。研究基因表达的DNA芯片产生的海量表达谱数据为生物网络研究注入新的活力,同时也给数据的信息挖掘带来极具挑战的难题,如数据信噪比低、缺失值高、假阳性率高等,需要应用基础的创新。
针对转录组数据本身特点,为了达到全面地、准确地、系统地挖掘蕴藏在转录组数据背后的生物学信息,我们建立了生物组学数据深层次挖掘的方法,具体包括1)自组织映射神经网络(SOM)整合奇异值分解(SVD)用于基因筛选;2)基于SOM的两步基因聚类进行特征表达模式的识别与展示;3)基于生物网络的思想,整合利用蛋白质相互作用组与基因表达转录组信息,识别表达激活的子网络;4)基于超几何分布的各种生物主题富集分析,如功能富集分析、信号通路富集分析、调控富集分析、表型富集分析、疾病/药物富集分析等;5)基于表达的基因群富集分析,考察基因群(如表达激活子网络)在相关生物样本标识谱中的差异表达情况。
虽然上述方法各自负责数据挖掘某一环节,然而有效组合应用将促使其发挥最大功效。例如,组合包括SOM-SVD基因筛选方法与SOM两步基因聚类在内的特征分析将实现信息拾取与特征表达模式的识别一体化,从而有助于生物信息的下一步挖掘。而基于生物网络思想的整合分析,利用蛋白质相互作用组与基因表达转录组进行表达激活子网络识别,分析子网络的特性,进而用更加符合生物表述的语言(网络)进行生物过程背后事件的诠释。
我们应用组学数据深层次挖掘的方法研究了多套大规模组学数据。处理典型细胞周期转录组数据的实施例表明,SOM-SVD基因筛选方法可以得到比原文更多细胞周期基因;处理典型细胞应急转录组数据的实施例表明,特征分析可以捕捉特征表达模式,从而加快对细胞应急背后的生物功能与转录调控的解释。此外,组学数据深层次挖掘的方法在芬维A胺诱导白血病细胞凋亡的系统性研究中的应用表明,“干”生物信息学的预测结果可以为“湿”实验生物学所证实,从而发现应急反应相关的转录因子的活化及其调控转录网络介导了上游活性氧信号向下游各种细胞应急信号的传递,直至始发凋亡事件,代表了一个典型的氧化应急介导肿瘤细胞凋亡过程。尤其值得指出的是,应用组学数据深层次挖掘的方法还可以应用于着床后人胚胎发育这一复杂过程的研究。基于公共数据库以及整合分析思路,捕捉得到的着床后人胚胎发育过程的特征表达模式可视为一项独特的体内发育标识资源,衡量现阶段同进化、干性相关的发育生物学研究状况。再者,整合蛋白质相互作用网络与表达谱信息识别表达激活的子网络,内涵干性相关的和分化相关的两个细化的模块,这两个模块就如同阴阳两极,互相拮抗又互相依赖共同调控着床后人胚胎发育过程。因此,我们从着床后人胚胎发育过程的基因表达谱出发,应用组学挖掘深层次的挖掘方法,整合生物网络信息和各种不同组学数据,树立了一个从网络层面上理解生物学过程的范例。