论文部分内容阅读
代谢组学是系统生物学领域中继基因组学、蛋白质组学、转录组学之后发展起来的以代谢物组分析为基础,以高通量检测和数据处理为手段,以信息建模与系统整合为目标的新的交叉学科,已成为生命科学领域的研究热点之一。 数据分析在代谢组学研究过程中至关重要。随着代谢组学研究的不断深入,对数据分析提出了更高的要求。本论文对代谢组学数据分析中的几个关键性问题进行深入研究,主要成果包括: 一、提出了基于信息熵的变量尺度缩放(variable scaling)方法。该方法从信息熵的角度出发,在单位方差缩放法的基础上,利用Kullback-Leibler(K-L)散度来度量变量的重要性,并对其进行加权。由于K-L散度是在概率分布的意义上度量不同数据间的差异程度,因此对于高斯和非高斯分布的数据均适用,能准确地度量不同实验分组样品的差异性,从而更有效地地对谱数据的重要变量进行识别和加权。以人群尿液的核磁共振(nuclear magnetic resonance,NMR)代谢轮廓数据为例,实验结果表明:基于K-L散度的缩放方法能有效地改善多变量统计模型的性能,提高对特征代谢物的辨识能力。 二、提出了基于局部特征信息提取的非负主成份分析(non-negative principalcomponent analysis,NPCA)和监督的非负主成份分析(supervised NPCA,sNPCA)两种多变量统计分析方法。NPCA方法是在对PCA负载矢量进行非负正交限制来实现的;通过结合局部保持投影算法(locality preserving projections,LPP)对NPCA方法进行扩展,实现了sNPCA方法;此外,文章中还提出了一种基于模型噪声评估的模型优化方法。利用模拟的NMR代谢组学数据和实验NMR代谢组学数据对这两种方法性能进行评估,结果表明这两种方法都非常适合代谢组学数据分析。 三、利用NMR和LC-MS/MS(liquid chromatography-tandem mass spectrometry,LC-MS/MS)技术并结合相应的模式识别方法对结直肠癌和结直肠息肉瘤进行研究。对结直肠癌患者、息肉瘤患者和健康人的血清样本同时采用NMR和LC-MS/MS技术进行检测,利用统计分析方法对三组数据两两进行分析,不同检测技术中获取到的代谢物变量在串联整合后,采用基于PLS-DA模型的后向变量删除(backward variableelimination,BVE)方法对其进行变量挑选,进而获取有效的代谢物变量子集用于分类建模。分析结果表明,数据整合结合变量挑选可以显著提高不同组样本的可分性。 四、提出了一种新的代谢通路分析方法。该方法利用代谢通路知识来指导代谢物浓度数据的统计建模,将数据统计分析与代谢通路分析合并为一步,与传统的代谢组学数据统计分析中比较样本间代谢水平差异的方法不同,该方法致力于比较样本间代谢通路的差异。研究中采用模拟的代谢组学数据验证了该方法有效性,另外,该方法还被应用于结直肠癌代谢组学数据的分析,并成功提取出与结直肠癌具有潜在关联的代谢通路。作为一种探索性的研究,这项工作为代谢组学数据分析提供了一种新的思路。