论文部分内容阅读
随着各种高通量生物技术的迅速发展,生物学领域产生了大量数据,例如基因表达谱,蛋白质互作数据等,这些数据为深入研究各种复杂疾病的致病机制提供了可能。为了合理利用这些生物学数据,整合方法被广泛应用于生物医学研究,并且在识别复杂疾病相关的基因或功能模块过程中发挥重要作用。
在本论文中,我们提出了一种新颖的基于整合分析的优化方法:差异表达模式优化方法。这种方法可以通过整合大量的疾病特异的表达谱数据优化疾病候选基因。以乳腺癌作为实例,基于留一交叉验证,我们整合了多套乳腺癌表达谱数据对这种优化方法的性能进行评估获得了较好的结果。值得注意的是,利用划分亚型后的乳腺癌表达谱数据进行评估时,差异表达模式优化方法显示出更好的优化性能。并且,我们发现随着表达谱数据数目的逐渐增加,这种方法的优化性能能够持续提升。我们将这种优化方法应用于前列腺癌表达谱数据,进一步证实了方法的鲁棒性。此外,与其他表达数据为基础的优化方法相比较,差异表达模式优化方法显示出较好的优化性能。
在进一步研究中,我们结合功能组学数据发展了一种整合方法用于识别复杂疾病相关的功能模块,并将这种整合方法应用于心衰研究。通过整合多套心衰相关的表达谱数据,我们完成了多步骤的系统分析并识别出不同心衰类型包含的一致差异表达基因(CDEGs)。将这些一致差异表达基因映射到构建的人类可信网络后,我们挖掘出五个心衰相关的功能模块。对这些模块进行评估时,我们发现这五个模块显著富集于与末期心衰病理生理学相关的生物学过程,其中包括RNA剪接与囊泡介导的蛋白质转运。值得注意的是,包含RNA剪接生物学过程的功能模块能够准确对心衰病人进行分类,但无法区分早期心衰和正常组织。通过分析鼠类心衰模型的表达谱数据,我们进一步发现这个功能模块只在心衰末期受影响,说明RNA剪接有可能在心衰由早期到末期转化过程中起到开关作用。